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内 容 提 要 
































自然 语言 处 理 是 计算 语言 学 和 人 工 智 能 之 中 与 人 机 交互 相关 的 领域 之 一 。 

本 书 是 学 习 自 然 语言 处 理 的 一 本 综合 学 习 指南 ， 介 绍 了 如 何 用 Python 实现 各 种 NLP 
任务 ， 以 帮助 读者 创建 基于 真实 生活 应 用 的 项 目 。 全 书 共 10 章 , 分 别 涉及 字符 串 操 作 、 统 
计 语 言 建 模 、 形 态 学 、 词 性 标注 、 语 法 解析 、 语 义 分 析 、 情 感 分 析 、 信 息 检 索 、 语 篇 分 析 
和 NLP 系统 评估 等 主题 。 












































































































































本 书 适 合 熟 悉 Python 语言 并 对 EE 














然 语言 处 理 开发 有 一 定 了 解 和 兴趣 的 读者 阅读 参考 。 





作者 简介 

















Deepti Chopra 是 Banasthali 大 学 的 助理 教授 。 她 的 主要 研究 领域 是 计算 语言 学 、 自 然 
语言 处 理 以 及 人 工 智 能 ， 她 也 参与 了 将 英语 转换 为 印度 诸 语言 的 机 器 翻译 引擎 的 研发 。 她 
在 各 种 期 刊 和 会 议 上 发 表 过 一 些 文章 ， 此 外 她 还 担任 一 些 期 刊 及 会 议 的 程序 委员 会 委员 。 


Nisheeth Joshi 是 Banasthali 大 学 的 副教授 。 他 感 兴趣 的 领域 包括 计算 语言 学 、 自 然 语 
言 处 理 以 及 人 工 智 能 。 除 此 之 外 ， 他 也 非常 积极 地 参与 了 将 英语 转换 为 印度 诸 语言 的 机 器 
翻译 引擎 的 研发 。 他 是 印度 政府 电子 和 信息 技术 部 TDIL 计划 选任 的 专家 之 一 ，TDIL 是 负 
责 印度 语言 技术 资金 和 研究 的 主要 组 织 。 他 在 各 种 期 刊 和 会 议 上 发 表 过 一 些 文章 ， 并 同时 
担任 一 些 期 刊 及 会 议 的 程序 委员 会 及 编审 委员 会 委员 。 


Iti Mathur 是 Banasthali 大 学 的 助理 教授 。 她 感 兴趣 的 领域 是 计算 语义 和 本 体 工 程 。 除 
此 之 外 ， 她 也 非常 积极 地 参与 了 将 英语 转换 为 印度 诸 语言 的 机 器 翻译 引擎 的 研发 。 她 是 印 
度 政府 电子 和 信息 技术 部 TDIL 计划 选任 的 专家 之 一 ，TDIL 是 负责 印度 语言 技术 资金 和 看 
究 的 主要 组 织 。 她 在 期 刊 和 会 议 上 发 表 过 一 些 文章 ， 并 同时 担任 一 些 期 刊 及 会 议 的 程序 委 


员 会 及 编审 委员 会 委员 。 




































































































































































































































































我 们 要 诚挚 地 感谢 所 有 的 亲朋 好 友 ， 因 为 你 们 的 祝福 促使 我 们 完成 了 出 版 这 
本 基于 自然 语言 处 理 的 图 书 的 目标 。 



































审阅 者 简介 




























































































































































































Arturo Argueta 目前 是 一 名 在 读 博 士 研究 生 , 他 专注 于 高 性 能 计算 和 自然 语言 处 理 领域 的 
研究 。 他 在 聚 类 算法 、 有 关 自 然 语 言 处 理 的 机 器 学 习 算 法 以 及 机 器 翻译 等 方面 有 一 定 的 研究 
他 还 精通 英语 、 德 语 和 西班牙 语 。 





译 者 简介 


ER ”资深 研发 工程 师 ， 曾 就 职 于 携程 、 东 方 财富 等 互联 网 公司 。 目 前 专注 于 互联 网 分 布 
式 架构 设计 、 大 数据 与 机 器 学 法 设计 等 领域 的 
术 。 内 涵 段 子 手 、 空 想 人 


$86: 2]. 究 ， 擅 长 CH, Python, Java, CHF}Y 
I 业 家 、 业 余 吉 他 手 、 重 度 读 书 人 。 
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在 本 书 中 ， 我 们 将 学 习 如 何 使 用 Python 实现 各 种 有 关 自 然 语言 处 理 的 任务 ， 并 了 解 一 
些 有 关 自 然 语言 处 理 的 当下 和 新 进 的 研究 主题 。 本 书 是 一 本 综合 的 进 阶 指南 ， 以 期 帮助 学 
生 和 研究 人 员 创 建 属于 他 们 自己 的 基于 真实 生活 应 用 的 项 目 。 






























































第 1 章 ， 字 符 串 操作 ， 介 绍 如 何 执行 文本 上 的 预 处 理 任务 ， 例 如 切 分 和 标准 化 ， 此 外 
还 介绍 了 各 种 字符 串 匹 配方 法 。 
第 2 章 ， 统 计 语 言 建 模 ， 包 含 如 何 计 算 单 词 的 频率 以 及 如 何 执行 各 种 语言 建 模 的 





























第 3 章 ， 形 态 学 : 在 实践 中 学 习 ， 讨 论 如 何 开发 词 干 提取 器 、 形 态 分 析 器 以 及 形态 4 


HT 




















第 4 章 ， 词 性 标注 : 单词 识别 ， 解 释 词 性 标注 以 及 有 关 n-gram 方法 的 统计 建 模 。 

第 5 章 ， 语 法 解析 : 分 析 训 练 资料 ， 提 供 关 于 Tree bank 建设 、CFG 建设 、CYK 算法 、 
线 图 分 析 算 法 以 及 音译 等 概念 的 相关 信息 。 

第 6 章 ， 语 义 分 析 : 意义 很 重要 ， 介 绍 浅 层 语 义 分 析 〈 即 NER) 的 概念 和 应 用 以 及 使 
Wordnet 执行 WSD. 

第 7 章 ， 情 感 分 析 : 我 很 快乐 ,提供 可 以 帮助 你 理解 和 应 用 情感 分 析 相 关 概 念 的 信息 。 























































































































第 8 章 ， 信 息 检 索 : 访问 信息 ， 将 帮助 你 理 
第 9 章 ， 语 篇 分 析 : 理解 才 是 可 信 的 ， 探 讨 语 篇 分 析 系 统 和 基于 指 代 消解 的 系统 。 
第 10 章 ，NLP 系统 评估 : 性 能 分 析 ， 谈 论 NLP 系统 评估 相关 概念 的 理解 与 应 用 。 




















解 和 应 用 信息 检索 及 文本 摘要 的 概念 。 














本 书 的 阅读 前 提 


本 书 中 所 有 的 代码 示例 均 使 有 









































H Python 2.7 或 Python 3.2 以 上 的 版 本 编写 。 不 管 是 32 位 

















机 还 是 64 位 机 ， 都 必须 安装 NLTK (Natural Language Toolkit, NLTK) 3.0 包 。 操 作 系 统 
KY Windows. Mac 或 UNIX. 


本 书 的 目标 读者 








本 书 主要 面向 对 Python 语言 有 一 定 认 知 水 平 的 自 




















排版 约定 


本 书 中 用 不 同 的 文本 样式 来 区 分 不 同 





其 含义 。 





文本 中 的 代码 单词 、 数 据 库 表 名 、 文 件 夹 名 称 、 


URL、 用 户 输 入 以 及 # 











然 语言 处 理 的 中 级 开发 人 员 。 






































特 用 户 定位 表示 如 下 : 














' 类 的 信息 。 下 面 给 出 了 这 些 文本 样式 的 示例 及 








xfi 


名 、 文 件 扩展 名 、 路 径 名 、 虚 拟 





“对 于 法 语文 本 的 切 分 ， 我 们 将 使 用 french.pickle 文件 。” 
代码 块 的 样式 如 下 所 示 ; 


>>> import nltk 





>>> text=" Welcome readers. I hope you find it interesting. Please do 


reply." 


>>> from nltk.tokenize import sent tokenize 


[ss 此 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 | 


[ Q 此 图 标 表示 提示 或 者 技巧 。 


读者 反馈 


我 们 始终 欢迎 来 自 读者 的 反馈 。 请 告诉 我 们 你 对 本 
这 将 有 助 于 我 们 开发 出 读者 真 J 





分 。 你 的 意见 对 我 们 来 说 非常 重要 ， 

















B4 








BA. 














如 果 你 擅长 某 个 3 





者 指南 ， 网 址 www.packtp 





& PMH 














既然 你 
备 了 以 下 内 容 。 


下 载 示 例 代码 

















你 可 


以 











pi 








E, 








FÆ feedback@packtpub.com, Jff 








M. 
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趣 的 东西 。 





[2 
i^. 


的 看 法 一 一 喜欢 或 者 不 喜欢 的 部 








邮件 3 


= 题 中 写 清 












































你 的 http://www.packtpub. com 账户 有 
[I 果 你 是 在 别 的 地 方 购 买 的 本 书 ， 你 可 以 访问 http://www.packtpub.com/support 


并 有 兴趣 编写 


b.com/authors. 


本 书 或 者 想 为 一 本 











忆 做 贡献 ， 请 参考 我 们 上 


已 经 是 Packt 引 以 为 做 的 读者 了 ， 为 了 能 让 你 的 购买 物 超 所 值 ， 我 们 还 为 你 准 









































并 注册 ， 我 们 会 用 邮 作 

你 可 以 按照 以 
使 
将 














Ls 











2. 
3. 
.在 搜索 














把 代码 文件 








直接 发 给 你 。 














BA. 


FAY BI 


下 步骤 下 载 代码 文件 。 
你 的 邮箱 地 址 和 密码 登录 或 注册 我 们 的 网 站 。 


鼠标 指针 移 至 顶端 的 SUPPORT 选项 - 





FE. 





单 击 Code Downloads & Errata. 
匡 中 输入 
. 选择 你 需要 下 载 代码 文 从 





书 。 














地 


. 在 下 拉 菜 单 里 选择 你 从 哪里 





购买 的 这 本 书 。 





. 71 Code Download. 


PS 





E 上 面 下 载 本 书 配套 的 示例 代码 。 


你 也 可 以 通过 单 击 Packt 出 版 社 官 网 上 关于 本 书 的 网 页 中 的 “Code Files” 按 钮 来 下 载 
代码 文件 。 你 可 以 通过 在 搜索 框 中 输入 书 名 进入 到 这 个 页 面 。 请 注意 你 需要 登录 你 的 Packt 
账户 。 

一 旦 下 载 示 例 代码 文件 后 ， 请 确保 使 用 以 下 最 新 版 本 的 工具 解压 文件 夹 : 

e WinRAR /7-Zip for Windows. 










































































e Zipeg /iZip / UnRarX for Mac. 


e 7-Zip / PeaZip for Linux. 





本 书 的 代码 包 也 托管 在 Github E, Ph https: //github.com/PacktPublishing/ 
Mastering-Natural-Language-Processing-with-Python。 我 们 也 有 来 自 于 我 们 丰 
富 的 图 书 和 视频 目录 的 其 他 代码 包 , 地 址 是 https://github.com/PacktPublishing/。 
欢迎 访问 ! 


勘误 















































虽然 我 们 章 尽 全 力 保 证 图 书 内 容 的 准确 性 ， 但 错误 仍 在 所 难免 。 如 果 你 在 我 们 的 任何 
一 本 书 里 发 现 错误 ， 可 能 是 文字 的 或 者 代码 中 的 错误 ， 都 烦请 报告 给 我 们 ， 我 们 将 不 胜 感 
激 。 这 样 不 仅 使 其 他 读者 免 于 困惑 ， 也 能 帮助 我 们 不 断 改进 后 续 版 本 。 如 果 你 发 现任 何 错 
误 ， 请 访问 http://www.packtpub.com/submit-errata 报告 给 我 们 ， 选 择 相 应 图 
书 ， 单 击 “Errata Submission Form” 链 接 ， 并 输入 勘误 详情 。 一 旦 你 提出 的 错误 被 证 实 ， 
你 的 勘误 将 被 接收 并 上 传 至 我 们 的 网 站 ， 或 加 入 到 已 有 的 勘误 列表 中 。 


若 要 查看 之 前 提交 的 勘误 ， 请 访问 https://www.packtpub.com/books/ content/ 
support 并 在 搜索 框 中 输入 书 名 ， 所 需 的 信息 将 会 展现 在 “Errata” 部 分 的 下 面 。 


反 盗 版 











































































































































































































在 互联 网 上 ， 所 有 媒体 都 会 遭遇 盗版 问题 。 对 Packt 来 说 ， 我 们 严格 保护 版 权 和 许可 
FE。 如 果 你 在 互联 网 上 发 现 我 们 出 版 物 的 任何 非法 副本 ， 请 立即 向 我 们 提供 侵权 网 站 的 地 
上 和 名 称 ， 以 便 我 们 采取 补救 措施 。 


ua 
































axe 
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时 请 提供 涉嫌 侵权 内 容 的 链接 。 





过 copyright@packtpub.com 联系 我 们 ， 同 
非常 感激 你 帮助 保护 我 们 的 作者 ， 让 我 们 尽力 提供 更 有 价值 的 内 容 。 


ac 


















































如 果 你 对 本 书 有 任何 疑问 ， 都 可 以 通过 questions@packtpub.com 邮箱 联系 我 们 ， 


我 们 将 尽 最 大 努力 为 你 答疑 解 惑 。 
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符 串 操作 eene 1 
切 分 BE ee ee DO 1 
1.1.1 将 文本 切 分 为 语句 ………… 2 
1.1.2 ”其 他 语言 文本 的 切 分 ……2 
1.1.3 ”将 句子 切 分 为 单词 ……… 3 
1.1.4 使 用 TreebankWordTokenizer 
执行 切 分 4 
1.1.5 使 用 正则 表达 式 实现 
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E ee eee 8 
1.2.1 消除 标点 符号 ……… 8 
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1.2.3 AbXEA4RGb-ee— 9 
1.2.4 ”计算 英语 中 的 停止 词 ……10 
替换 和 校正 标识 符 后 11 
1.3.1 使 用 正则 表达 式 替换 
单词 eee 11 
1.3.2 ”用 其 他 文本 替换 文本 的 
示例 12 
1.3.3 ”在 执行 切 分 前 先 执行 替换 


1.5 


2.2 






































1.3.4 处 理 重 复 字 符 pp 13 
13.5 ”去 除 重复 字符 的 示例 ……13 
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1.3.7 用 单词 的 同义词 替换 的 
示例 HMM M 15 
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相似 性 度量 a Eod edes Yet en 16 
1..1 使 用 编辑 距离 算法 执行 
JEU PERE IR eM 16 
1.5.2 使 用 Jaccard 系数 执行 相似 
性 度量 E 18 
1.5.3 ”使 用 Smith Waterman 距离 
算法 执行 相似 性 度量 ……19 
1.5.4 ”其 他 字符 囊 相 似 性 度量 
"y VN stie Mii I t e tU i rers 20 
统计 语言 言 建 模 EEE ies 21 
里 解 单词 频率 eee 21 
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MLE SUsVQevesesvsevéserUds vUse Ee US 25 
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在 MLE 模型 上 应 用 平滑 ……… 34 




























































































2.2.1 加 法 平滑 eeeeererreeee 34 
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它 是 人 工 智 能 (Artificial Intelligence, AD 和 计算 语言 学 的 了 
供 了 计算 机 和 人 类 之 间 的 无 颖 交互 并 使 得 计算 机 外 









































本 章 将 包含 以 下 主题 : 
。 文本 切 分 。 
。 文本 标准 化 。 


1.1 


切 分 可 以 认为 是 将 文本 分 割 成 更 小 的 3 


的 一 个 














蔡 换 和 校正 标识 符 。 















































使 用 Smith Waterman 


切 分 


要 步骤 。 





在 文本 上 应 用 Zipf 定律 。 
使 用 编辑 距离 算法 执行 相似 性 度量 。 
使 用 Jaccard 系数 执行 相似 性 度量 。 


fe 
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E (Natural Language Processing, NLP) 关注 的 是 自然 语言 与 计算 机 之 间 








EX x —. Ete 









































法 执行 相 化 


















































被 称 作 标识 符 的 模块 的 过 程 ， 




















够 在 机 器 学 习 的 帮助 下 理解 人 类 语言 。 


























在 编程 语言 〈《 例 如 C. C+, Java. Python 等 ) 里 用 于 表示 一 个 文件 或 文档 内 容 的 基础 数据 
类 型 被 称 为 字符 串 。 在 本 章 中 ， 我 们 将 探索 各 
有 助 于 完成 各 种 NLP 任务 。 





可 以 在 字符 串 上 执行 的 操作 ， 这 些 操作 将 





它 被 认为 是 NLP 
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当 安 装 好 NLTK 包 并 且 Python 的 交互 式 开 发 环境 (IDLE) 也 运行 起 来 时 ， 我 们 就 可 





以 将 文本 或 者 段落 切 分 成 独立 的 语句 。 为 了 实现 切 分 ， 我 们 可 以 导入 语句 切 分 函数 ， 该 函 
数 的 参数 即 为 需要 被 切 分 的 文本 。sent tokenize 函数 使 用 了 NLTK 包 的 一 个 叫 作 
PunktSentenceTokenizer 类 的 实例 。 基 于 那些 可 以 标记 句子 开始 和 结束 的 字母 和 标点 
符号 ，NLIK 中 的 这 个 实例 已 经 被 训练 用 于 对 不 同 的 欧洲 语言 执行 切 分 。 


1.1.1 将 文本 切 分 为 语句 



























































现在 ， 让 我 们 来 看 看 一 段 给 定 的 文本 是 如 何 被 切 分 为 独立 的 句子 的 : 


>>> import nltk 
>>> text=" Welcome readers. I hope you find it interesting. Please do 























reply." 

>>> from nltk.tokenize import sent tokenize 

>>> sent tokenize (text) 

[' Welcome readers.', 'I hope you find it interesting.', 'Please do 





reply.'] 


这 样 ， 一 段 给 定 的 文本 就 被 分 割 成 了 独立 的 句子 。 我 们 还 可 以 进一步 对 这 些 独立 的 名 


























子 进 行 处 理 。 




















要 切 分 大 批量 的 句子 ， 我 们 可 以 加 载 PunktSentenceTokenizer 并 使 用 其 


























tokenize () 函数 来 进行 切 分 。 下 面 的 代码 展示 了 该 过 程 : 


>>> import nltk 
>>> tokenizer=nltk.data.load('tokenizers/punkt/english.pickle') 
>>> text=" Hello everyone. Hope all are fine and doing well. Hope you 





find the book interesting" 
>>> tokenizer.tokenize (text) 
[' Hello everyone.', 'Hope all are fine and doing well.', 'Hope you 











find the book interesting'] 


1.1.2 其 他 语言 文本 的 切 分 




















为 了 对 除 英文 之 外 的 其 他 语言 执行 切 分 ， 我 们 可 以 加 载 它们 各 自 的 pickle 文件 (可 以 在 























tokenizers/punkt 里 边 找到 )， 然 后 用 该 语言 对 文本 进行 切 分 ， 这 些 文 本 是 tokenize () 


函数 的 参数 。 对 于 法 语文 本 的 切 分 ， 我 们 将 使 用 如 下 的 french.pickle 文件 : 


























>>> import nltk 
>>> french tokenizer-nltk.data.load('tokenizers/punkt/french.pickle') 





>>> french tokenizer.tokenize('Deux agressions en quelques jours, 


L1 Way 3 





voilà ce qui a motivé hier matin le débrayage collége franco- 





britanniquede Levallois-Perret. Deux agressions en quelques jours, 





voilà ce qui a motivé hier matin le débrayage Levallois. L'équipe 
pédagogique de ce collége de 750 éléves avait déjà été choqué 








par l'agression, janvier , d'un professeur d'histoire. L'équipe 








pédagogique de ce collége de 750 éléves avait déjà été choquée par 
l'agression, mercredi , d'un professeur d'histoire!) 
['Deux agressions en quelques jours, voilà ce qui a motivé hier 





matin le débrayage collége franco-britanniquedeLevallois-Perret.', 


'Deux agressions en quelques jours, voilà ce qui a motivé hier matin 








le débrayage Levallois.', 'L'équipe pédagogique de ce collége d 
750 éléves avait déjà été choquée par l'agression, janvier , d'un 








professeur d'histoire.', 'L'équipe pédagogique de ce collége d 





750 éléves avait déjà été choquée par l'agression, mercredi , d'un 
professeur d'histoire'] 


1.1.3 ”将 句子 切 分 为 单词 


现在 ， 我 们 将 对 独立 的 句子 执行 处 理 ， 独 立 的 句子 会 被 切 分 为 单词 。 通 过 使 用 
word tokenize () 函数 可 以 执行 单词 的 切 分 。word tokenize 函数 使 用 NLTK 包 的 一 
个 叫 作 TreebankWordTokenizer 类 的 实例 用 于 执行 单词 的 切 分 。 


使 用 word tokenize 函数 切 分 英文 文本 的 代码 如 下 所 示 : 





















































>>> import nltk 
>>> text-nltk.word tokenize("PierreVinken , 59 years old , will join 








as a nonexecutive director on Nov. 29 .») 
>>> print (text) 
['PierreVinken', ',', '59', ' years', ' old', ',', 'will', 'join', 


'as', 'a', 'nonexecutive', 'director' , 'on', 'Nov.', '29', '.'] 





+ 


实现 单词 的 切 分 还 可 以 通过 加 载 TreebankWordTokenizer, 然后 调用 tokenize () 
KAKER, HP tokenize () 函数 的 参数 是 需要 被 切 分 为 单词 的 句子 。 基 于 空格 和 标点 
符号 ，NLTK 包 的 这 个 实例 已 经 被 训练 用 于 将 句子 切 分 为 单词 。 


如 下 代码 将 帮助 我 们 获取 用 户 的 输入 ， 然 后 再 将 其 切 分 并 计算 切 分 后 的 列表 长 度 : 
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>>> import nltk 
>>> from nltk import word tokenize 





>>> r-input("Please write a text") 





Please write a textToday is a pleasant day 








>>> print("The length of text is",len(word tokenize (r)),"words") 
The length of text is 5 words 
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1.1.4 ”使 用 TreebankWordTokenizer 执行 切 分 


让 我 们 来 看 看 使 用 TreebankWordTokenizer 执行 切 分 的 代码 : 








>>> import nltk 

>>> from nltk.tokenize import TreebankWordTokenizer 

>>> tokenizer = TreebankWordTokenizer () 

>>> tokenizer.tokenize("Have a nice day. I hope you find the book 
interesting") 


['Have', 'a', 'nice', 'day.', 'I', 'hope', 'you', 'find', 'the', 


'book', ‘interesting'] 


TreebankWordTokenizer 依据 Penn Treebank 语料库 的 约定 ,通过 分 离 缩 略 词 来 实 
现 切 分 。 此 过 程 展示 如 下 : 


>>> 
>>> 





import nltk 
text-nltk.word tokenize(" Don't hesitate to ask questions") 


>>> print (text) 


['Do', 


"n't", 'hesitate', 'to', 'ask', 'questions'] 


另 一 个 分 词 器 是 PunktWordTokenizer， 它 是 通过 分 离 标点 来 实现 切 分 的 ， 每 一 个 单 
词 都 会 被 保留 , 而 不 是 去 创建 一 个 全 新 的 标识 符 。 还 有 一 个 分 词 器 是 WordPunctTokenizer, 
它 通 过 将 标点 转化 为 一 个 全 新 的 标识 符 来 实现 切 分 ， 我 们 通常 需要 这 种 形式 的 切 分 : 


>>> 
>>> 
>>> 





from nltk.tokenize import WordPunctTokenizer 
tokenizer-WordPunctTokenizer() 





tokenizer.tokenize(" Don't hesitate to ask questions") 


['Don', "'", 't', 'hesitate', 'to', 'ask', 'questions'] 


分 词 器 的 继承 树 如 图 1-1 所 示 。 





1.1.5 ”使 用 正则 表达 式 实现 切 分 


可 以 通过 构建 如 下 两 种 正则 表达 式 来 实现 单词 的 切 分 : 


























通过 匹配 单词 。 
通过 匹配 空格 或 间隔 。 





























L1 X 

















我 们 可 以 导入 NLIK 包 的 RegexpTokenizer 模块 ,并 构建 一 个 与 文本 中 的 标识 符 相 














[A 








>>> 
>>> 
>>> 
>>> 





配 的 正则 表达 式 : 


import nltk 


from nltk.tokenize import RegexpTokenizer 


tokenizer=RegexpTokenizer ([\w]+") 





tokenizer.tokenize("Don't hesitate to as 





["Don't", 'hesitate', 'to', 'ask', 'question 


另 一 种 不 用 实例 化 类 的 切 分 方式 将 使 用 下 面 的 函数 : 


>>> 
>>> 
>>> 
>>> 





import nltk 








from nltk.tokenize import regexp tokeniz 


k questions") 
g&*] 





sent-"Don't hesitate to ask questions" 


print(regexp tokenize(sent, pattern='\wt 





['Don', "'t", 'hesitate', 'to', 'ask', 'ques 











I\$[\d\.]+|\S+")) 


tions'] 























RegularexpTokenizer 在 使 用 re.findall () 函数 时 是 通过 匹配 标识 符 来 执行 切 


分 的 ， 在 使 月 











让 我 们 来 看 一 个 如 何 通过 空格 来 执行 切 分 的 例子 : 


>>> 
>>> 
>>> 
>>> 
["D 


要 筛选 以 大 写字 母 开 头 的 单词 ， 可 


>>> 
>>> 
>>> 


stu 




















import nltk 
from nltk.tokenize import 
tokenizer=RegexpTokenizer 








tokenizer.tokenize ("Don't 


RegexpTokenize 








H re.split () 函数 时 是 通过 匹配 间隔 或 者 空格 来 执行 切 分 的 。 


r 


('\s+',gaps=True) 


hesitate to as 


on't", 'hesitate', 'to', 'ask', ‘question 


import nltk 





from nltk.tokenize import 
sent-" She secured 90.56 
dent" 








k questions") 
s'] 


以 使 用 下 面 的 代码 : 


a 


5 


RegexpTokenize 
in class X . 


>>> capt = RegexpTokenizer('[A-Z]Nwt') 





r 


She is a meritorious 
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>>> capt.tokenize (sent) 
['She', 'She'] 














下 





的 代码 展示 了 RegexpTokenizer 的 一 个 子 类 是 如 何 使 用 预定 义 正 则 表达 式 的 : 

















>>> import nltk 





>>> sent=" She secured 90.56 $ in class X . She is a meritorious 
student" 

>>> from nltk.tokenize import BlanklineTokenizer 

>>> BlanklineTokenizer().tokenize (sent) 


[' She secured 90.56 $ in class X Mn. She is a meritorious student\n"] 
字符 串 的 切 分 可 以 通过 空格 、 间 隔 、 换 行 等 来 完成 ; 


>>> import nltk 











>>> sent=" She secured 90.56 $ in class X . She is a meritorious 
student" 

>>> from nltk.tokenize import WhitespaceTokenizer 

>>> WhitespaceTokenizer().tokenize(sent) 

|['Shet*, "secured', "90.5617 "3S", "int, "Glass". "Xp hy Foe, “isl; 


'a', 'meritorious', 'student'] 











WordPunctTokenizer 使 用 正则 表达 式 \w+ | [^NwNs] ETAT MAMI, 并 将 其 
切 分 为 字母 与 非 字母 字符 。 


使 用 split () 方 法 进行 切 分 的 代码 描述 如 下 : 




















>>> import nltk 

>>> sent= She secured 90.56 $ in class X. She is a meritorious student" 
>>> sent.split() 

['She', -“securéd', '90.56', "$',-'in', 'oldss', 'X', '.*, "She', 'is*, 
'a', 'meritorious', 'student'] 

>>> sent.split('') 











[tr *She', “secured”, -*90.560*, '$'. 'im', *'olass', "'X', *j', 'She', 
'is', 'a', 'meritorious', 'student'] 

>>> sent=" She secured 90.56 $ in class X Mn. She is a meritorious 
student in" 

>>> sent.split('\n') 

[' She secured 90.56 $ in class X ', '. She is a meritorious student', 


ruj 


类 似 于 sent.split('\n') Wi, LineTokenizer 通过 将 文本 切 分 为 行 来 执行 切 分 : 





>>> import nltk 
>>> from nltk.tokenize import BlanklineTokenizer 
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>>> sent=" She secured 90.56 $ in class X Mn. She is a meritorious 
student in" 
>>> BlanklineTokenizer().tokenize (sent) 





[' She secured 90.56 $ in class X Mn. She is a meritorious student\n'"] 
>>> from nltk.tokenize import LineTokenizer 

>>> LineTokenizer (blanklines-'keep').tokenize (sent) 

[' She secured 90.56 $ in class X ', '. She is a meritorious student'] 





>>> LineTokenizer(blanklines-'discard').tokenize(sent) 








[' She secured 90.56 $ in class X ', '. She is a meritorious student'] 











SpaceTokenizer 与 sent.split('') 方 法 的 工作 原理 类 似 : 


>>> import nltk 

>>> sent=" She secured 90.56 % in class X \n. She is a meritorious 
student\n" 

>>> from nltk.tokenize import SpaceTokenizer 





>>> SpaceTokenizer().tokenize (sent) 
['', 'She', 'secured', '90.56', '$', 'in', 'class', 'X', '\n.', "shet, 


'is', 'a', 'meritorious', 'student\n'] 


nltk.tokenize.util 模块 通过 返回 元 组 形式 的 序列 来 执行 切 分 ， 该 序列 为 标识 符 
在 语句 中 的 位 置 和 偏 移 量 : 











>>> import nltk 
>>> from nltk.tokenize import WhitespaceTokenizer 








>>> sent-" She secured 90.56 $ in class X Mn. She is a meritorious 
student n" 
>>> list(WhitespaceTokenizer().span tokenize(sent)) 





[(1, 4), (5, 12), (13, 18), (19, 20), (21, 23), (24, 29), (30, 31), 
(33, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 63)] 














>>> import nltk 
>>> from nltk.tokenize import WhitespaceTokenizer 








>>> from nltk.tokenize.util import spans to relative 








>>> sent-" She secured 90.56 $ in class X Mn. She is a meritorious 
student An" 
»»»list(spans to relative (WhitespaceTokenizer().span tokenize(sent))) 


( 
((1, 3), (1, 7), (1, 5, (1, 1), (1, 2, (1, 5, (1, 1), (2, 1), (1, 
3), (1, 2), (1, 1), (1, 11), (1, 7)] 




















通过 在 每 一 个 分 隔 符 的 连接 处 进行 分 割 ，n1ltk.tokenize.util.string span 


tokenize (sent, separator) 将 返回 sent 中 标识 符 的 偏 移 量 : 





>>> import nltk 

>>> from nltk.tokenize.util import string span tokenize 

>>> sent=" She secured 90.56 $ in class X Mn. She is a meritorious 
student\n" 

>>> list(string span tokenize(sent, "")) 

[ (15. 44 ey. 12)4. X195. 11983, CUS 2094 (271,723); (24,529) 4. (30 - 32); 
(32, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 64)] 





1.2 标准 化 
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为 了 实现 对 自然 语言 文本 的 处 理 , 我 们 需要 对 其 执行 标准 化 ,主要 涉及 消除 标点 符号 、 
将 整个 文本 转换 为 大 写 或 小 号、 数字 转换 成 单词 、 扩 展 缩 略 词 、 文 本 的 规范 化 等 操作 。 


1.2.1 “消除 标点 符号 


有 时 候 ， 在 切 分 文本 的 过 程 中 ， 我 们 希望 删除 标点 符号 。 当 在 NLTK 中 执行 标准 化 操 
作 时 ， 删 除 标点 符号 被 认为 是 主要 的 任务 之 一 。 


考虑 下 面 的 代码 示例 : 












































>>> text=[" It is a pleasant evening.","Guests, who came from US 
arrived at the venue","Food was tasty."] 

>>> from nltk.tokenize import word tokenize 

>>> tokenized docs-[word tokenize(doc) for doc in text] 

>>> print(tokenized docs) 

[['It', 'is', Tat; 'pleasant', 'evening', '.'], ['Guests', ',', 'who', 
'came', 'from', 'US', 'arrived', 'at', 'the', 'venue'], ['Food', 


'was', 'tasty', '.']] 


以 上 代码 得 到 了 切 分 后 的 文本 。 以 下 代码 将 从 切 分 后 的 文本 中 删除 标点 符号 : 








>>> import re 


>>> import string 





>>> text=[" It is a pleasant evening.","Guests, who came from US 
arrived at the venue","Food was tasty."] 

>>> from nltk.tokenize import word tokenize 

>>> tokenized docs-[word tokenize(doc) for doc in text] 

>>> x=re.compile('[%s]' $ re.escape (string.punctuation)) 


>>> tokenized docs no punctuation = [] 
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>>> for review in tokenized docs: 
new review - [] 
for token in review: 
new token = x.sub(u'', token) 
if not new token -- u'': 


new review.append(new token) 





tokenized docs no punctuation.append(new review) 
>>> print(tokenized docs no punctuation) 
[['It', 'is', 'a', 'pleasant', 'evening'], ['Guests', 'who', 'came', 
'from', 'US', 'arrived', 'at', 'the', 'venue'], ['Food', 'was', 
'tasty']] 


1.2.2 文本 的 大 小 写 转换 

通过 Lower () 和 upper () 函数 可 以 将 一 段 给 定 的 文本 彻底 转换 为 小 写 或 大 写 文本 。 
将 文本 转换 为 大 小 写 的 任务 也 属于 文本 标准 化 的 范畴 。 

考虑 下 面 的 大 小 写 转换 例子 : 

















>>> text-'HARdWork IS KEY to SUCCESS' 
>>> print (text. lower () ) 

hardwork is key to success 

>>> print (text.upper()) 

HARDWORK IS KEY TO SUCCESS 


1.2.3 ”处 理 停止 词 


停止 词 是 指 在 执行 信息 检索 任务 或 其 他 自然 语言 任务 时 需要 被 过 滤 掉 的 词 ， 因 为 这 些 
词 对 理解 句子 的 整体 意思 没有 多 大 的 意义 。 许 多 搜索 引擎 通过 去 除 停止 词 来 工作 ， 以 便 缩 
小 搜索 范围 。 消 除 停止 词 在 NLP 中 被 认为 是 至 关 重 要 的 标准 化 任务 之 一 。 

NLIK 库 为 多 种 语言 提供 了 一 系列 的 停止 词 ， 为 了 可 以 从 nltk data/corpora/ 
stopwords 中 访问 停止 词 列表 ， 我 们 需要 解压 datafile 文件 : 
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>>> import nltk 
>>> from nltk.corpus import stopwords 
>>> stops-set(stopwords.words('english')) 





>>> words-["Don't", 'hesitate','to','ask','questions'] 
>>> [word for word in words if word not in stops] 
["Don't", 'hesitate', 'ask', 'questions'] 





nltk.corpus.reader.WordListCorpusReader 类 的 实例 是 一 个 stopwords 
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语料库 ， 它 拥有 一 个 参数 为 fileiad 的 words () 函数 。 这 里 参数 为 English， 它 指 的 是 在 
英语 文件 中 存在 的 所 有 停止 词 。 如 果 words () 函数 没有 参数 ， 那 么 它 指 的 将 是 关于 所 有 语 
言 的 全 部 停止 词 。 


可 以 在 其 中 执行 停止 词 删 除 的 其 他 语言 ， 或 者 在 NLTK 中 其 文件 存在 停止 词 的 语言 数 
量 都 可 以 通过 使 用 £ileids () 函数 找到 : 










































































>>> stopwords.fileids() 

['danish', 'dutch', 'english', 'finnish', 'french', 'german', 
'hungarian', 'italian', 'norwegian', 'portuguese', 'russian', 
'spanish', 'swedish', 'turkish'] 












































上 面 列 出 的 任何 一 种 语言 都 可 以 用 作 words O 函数 的 参数 ， 以 便 获 取 该 语言 的 停止 词 。 
1.2.4 ”计算 英语 中 的 停止 词 


让 我 们 来 看 一 个 有 关 如 何 计算 停止 词 的 例子 : 









































>>> import nltk 

>>> from nltk.corpus import stopwords 

>>> stopwords.words('english') 

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 
'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 
"himself', “she™, 'her', 'hers', "herself" 'it', 'its"', 'itself', 
'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 
'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 
'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 
'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 
'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 








'with', 'about', 'against', 'between', 'into', 'through', 'during', 
'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 
'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 
'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 


'both', teach"; 'few', 'more', 'most', 'other', 'some', 'such', 'no', 





'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 


Te, Sean’, "writ", "just", don"; should"; mow] 


>>> def para fraction(text): 
stopwords = nltk.corpus.stopwords.words('english') 


para = [w for w in text if w.lower() not in stopwords] 


return len(para) / len(text) 
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>>> para fraction (nltk.corpus.reuters.words()) 
0.7364374824583169 

>>> para_fraction(nltk.corpus.inaugural.words () ) 
0.5229560503653893 





标准 化 操作 还 涉及 将 数字 转化 为 单词 (例如 ，1 可 以 替换 为 one) 和 扩展 缩 略 词 〈 例 
lll, can’t UBH cannot)， 这 可 以 通过 使 用 蔡 换 模式 表示 它们 来 实现 。 我 们 将 在 下 
一 节 讨 论 这 些 内 容 。 


1.3 替换 和 校正 标识 符 















































在 本 节 中 ， 我 们 将 讨论 用 其 他 类 型 的 标识 符 来 替换 标识 符 。 我 们 还 会 讨论 如 何 来 校 
标识 符 的 拼写 〈 通 过 用 正确 拼写 的 标识 符 蔡 换 拼 写 不 正确 的 标识 符 )。 


1.3.1 ”使 用 正则 表达 式 替 换 单词 


为 了 消除 错误 或 执行 文本 的 标准 化 ， 需 要 做 单词 替换 。 一 种 可 以 完成 文本 蔡 换 的 方法 
是 使 用 正则 表达 式 。 之 前 ， 在 执行 缩 略 词 切 分 时 我 们 遇 到 了 问题 。 通 过 使 用 文本 蔡 换 ， 我 
们 可 以 用 缩 略 词 的 扩展 形式 来 蔡 换 缩 略 词 。 例 如 ，qoesn'^t 可 以 被 替换 为 does not. 


我 们 将 从 编写 以 下 代码 开始 ， 并 命名 此 程序 为 replacers.py， 最 后 将 其 保存 在 
nltkdata 文件 夹 中 : 


FH 






































































































































































































































import re 

replacement patterns = [ 
rf'wonNttt *'wrll nott, 
r'can\'t', 'cannot'), 
qua bm vtm), 


r'arznN't', “is not!), 





c'(\wt)\'11', '\g<l> will'), 
r'(Nw-)nN't', '\g<l> not"), 
r'(Nw-)N've', '\g<1> have'), 
EY (wt) \'s't, '"Xg«l» is"), 
r'(\wt)\'re', '\g<1> are'), 
r'( ) 


t)\'d', 'Ng«1» would!) 


class RegexpReplacer (object): 








def | init (self, patterns-replacement patterns): 
self.patterns = [(re.compile(regex), repl) for (regex, repl) 
in 
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patterns] 
def replace (self, text): 
$ c text 





for (pattern, repl) in self.patterns: 
(s, count) = re.subn(pattern, repl, s) 


return s 





























这 里 我 们 定义 了 蔡 换 模式 ， 模 式 第 一 项 表示 需要 被 匹配 的 模式 ， 第 二 项 是 其 对 应 的 蔡 
换 模式 。RegexpReplacer 类 被 定义 用 来 执行 编译 模式 对 的 任务 ， 并 且 它 提供 了 一 个 叫 
E replace O 的 方法 ， 该 方法 的 功能 是 用 另 一 种 模式 来 执行 模式 的 蔡 换 。 


1.3.2 ”用 其 他 文本 奉 换 文本 的 示例 


证 我 们 来 看 一 个 有 关 如 何 用 其 他 文本 来 替换 文本 的 例子 ; 




















































































































>>> import nltk 
>>> from replacers import RegexpReplacer 





>>> replacer= RegexpReplacer () 





>>> replacer.replace("Don't hesitate to ask questions") 

"Do not hesitate to ask questions’ 

>>> replacer.replace("She must've gone to the market but she didn't 
go") 

"She must have gone to the market but she did not go' 





























RegexpReplacer.replace () 函数 用 其 相应 的 蔡 换 模式 来 更 换 被 替换 模式 的 每 一 
个 实例 。 在 这 里 ，must've 被 替换 为 must have, didn't 被 蔡 换 为 did not， 因为 在 
replacers.py 中 已 经 通过 元 组 对 的 形式 定义 了 替换 模式 ， 也 就 是 (z' C\wt) \'ve' ， 
'\ g <l>have') 和 (r' (\w +) n\'t', '\ g<l>not')。 


我 们 不 仅 可 以 执行 缩 略 词 的 替换 ， 还 可 以 用 其 他 任意 标识 符 来 替换 一 个 标识 符 。 
1.3.3 ”在 执行 切 分 前 先 执行 餐 换 操作 


标识 符 蔡 换 操作 可 以 在 切 分 前 执行 ， 以 避免 在 切 分 缩 略 词 的 过 程 中 出 现 问题 : 




































































































































































>>> import nltk 
>>> from nltk.tokenize import word tokenize 
>>> from replacers import RegexpReplacer 





>>> replacer=RegexpReplacer () 
>>> word _ tokenize ("Don't hesitate to ask questions") 
['Do', "n't", 'hesitate', 'to', 'ask', 'questions'] 
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>>> word tokenize (replacer.replace("Don't hesitate to ask questions") ) 
['Do', 'not', 'hesitate', 'to', 'ask', 'questions'] 


1.3.4 ”处 理 重复 字符 


有 时 候 ， 人 们 在 写作 时 会 涉及 一 些 可 以 引起 语法 错误 的 重复 字符 。 例 如 考虑 这 样 的 一 
个 句子 : I like it a lotttttt。 在 这 里 ，lotttttt 是 指 lot。 所 以 现在 我 们 将 使 
j 反 向 引用 方法 来 去 除 这 些 重复 的 字符 ， 在 该 方法 中 ， 一 个 字符 指 的 是 正则 表达 式 分 组 中 
的 先前 字符 。 消 除 重复 字符 也 被 认为 是 标准 化 任务 之 一 。 


首先 ， 将 以 下 代码 附加 到 先前 创建 的 replacers.py 文件 中 : 





















































class RepeatReplacer(object): 
def init (self): 
self.repeat regexp = re.compile (r' (Nw*) (Nw)N2 (Nw*) ') 
self.repl = r'\1\2\3' 
def replace(self, word): 





repl word = self.repeat regexp.sub(self.repl, word) 





if repl word !- word: 
return self.replace(repl word) 





else: 


return repl word 
139.5 ”去 除 重复 字符 的 示例 


让 我 们 来 看 一 个 关于 如 何 从 一 个 标识 符 中 去 除 重复 字符 的 示例 : 























>>> import nltk 





>>> from replacers import RepeatReplacer 





>>> replacer=RepeatReplacer () 
>>> replacer.replace('lotttt') 














'lot' 

>>> replacer.replace('ohhhhh') 
Yoh: 

>>> replacer.replace('ooohhhhh') 
'oh' 


fE replacers.py 文件 中 , RepeatReplacer XM 2g VE 1E DU] RA ThA LIT] EAT 
串 来 工作 ， 并 使 用 backreference.Repeat regexp 来 定义 。 它 匹配 可 能 是 以 零 个 或 
ZAA w x*) 字 符 开 始 ， 以 零 个 或 多 个 (\ w *) ， 或 者 一 个 (\_w) 其 后 面 带 有 相同 字符 的 
字符 而 结束 的 字符 。 
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例如 , Lotttt 被 分 拆 为 (Lo) (t) t (tt) 3x Hb Y —^- t HALRB lottt. 
分 拆 的 过 程 还 将 继续 ， 最 后 得 到 的 结果 字符 


使 用 RepeatReplacer 的 问题 是 它 会 将 happy 转换 为 hapy， 这 样 是 不 妥 的 。 为 了 
避免 这 个 问题 ， 我 们 可 以 让 入 wordnet 与 其 一 起 使 用 。 


在 先前 创建 的 replacers .py 程序 中 ， 添 加 以 下 代码 行 以 便 包 含 wordnet: 




































































import re 
from nltk.corpus import wordnet 





class RepeatReplacer(object): 
def init (self): 
self.repeat regexp = re.compile (r' (\w*) (Nw)N2 (Nw*) ') 
self.repl = r'\1\2\3' 
def replace(self, word): 





if wordnet.synsets (word): 
return word 
repl word = self.repeat regexp.sub(self.repl, word) 





if repl word !- word: 
return self.replace(repl word) 





else: 
return repl word 


现在 ， 让 我 们 来 看 看 如 何 解 决 前 面 提 到 的 问题 : 




















>>> import nltk 
>>> from replacers import RepeatReplacer 





>>> replacer=RepeatReplacer () 
>>> replacer.replace('happy') 
'happy' 


1.3.6 JH rcg pd S ia] PER 


现在 我 们 将 看 到 如 何 用 其 同义词 来 蔡 代 一 个 给 定 的 单词 。 es 己 经 存在 的 
replacers.py 文件 ， 我 们 可 以 为 其 添加 一 个 名 为 WordReplacer 的 类 ， 这 个 类 提供 了 
个 单词 与 其 同义词 之 间 的 映射 关系 : 







































































class WordReplacer (object): 
def init (self, word map): 
self.word map - word map 
def replace(self, word): 
return self.word map.get(word, word) 
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13.7. ”用 单词 的 同义词 谷 换 的 示例 


证 我 们 来 看 一 个 有 关 用 其 同义词 来 替换 单词 的 例子 ; 












































>>> import nltk 








>>> from replacers import WordReplacer 





>>> replacer=WordReplacer({'congrats':'congratulations'}) 





>>> replacer.replace('congrats') 
'congratulations' 





>>> replacer.replace('maths') 
'maths' 





在 这 段 代 码 中 ，replace () RAE word map 中 寻找 单词 对 应 的 同义词 。 如 果 给 定 
的 单词 存在 同义词 ， 则 该 单词 将 被 其 同义词 蔡 换 ， 如果 给 定单 词 的 同义词 不 存在 ， 则 不 执 
行 替换 ， 将 返回 单词 本 身 。 


1.4 在 文本 上 应 用 Zipf 定律 













































































Zipf 定律 指出 ， 文 本 中 标识 符 出 现 的 频率 与 其 在 排序 列表 中 的 排名 或 位 置 成 反比 。 该 
定律 描述 了 标识 符 在 语言 中 是 如 何 分 布 的 : 一 些 标识 符 非 常 频繁 地 出 现 ， 另 一 些 出 现 频率 
较 低 ， 还 有 一 些 基 本 上 不 出 现 。 


让 我 们 来 看 看 NLTK 中 用 于 获取 基于 Zipf 定律 的 双 对 数 图 (log-log plot) 的 代码 : 



















































































>>> import nltk 


>>> from nltk.corpus import gutenberg 





>>> from nltk.probability import FreqDist 





>>> import matplotlib 

>>> import matplotlib.pyplot as plt 
>>> matplotlib.use('TkAgg') 

>>> fd = FreqDist () 

>>> for text in gutenberg.fileids(): 





. for word in gutenberg.words (text): 
. fd.inc(word) 
>>> ranks = [] 
>>> freqs = [] 
>>> for rank, word in enumerate(fd): 
. vranks.append(rank+1) 
. freqs.append(fd[word] ) 


>>> 


上 述 代码 将 获取 一 个 关于 
可 以 通过 碍 





1.5 


字符 串 操 作 


.loglog(ranks, 
.xlabel(' 
.ylabel(' 
.grid(True) 


rank ( 


r)', 


.show() 


frequency(f)', 
fontsize-14, 
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相似 性 度量 





有 











输出 : 


许 
各 种 评估 或 相似 性 度量 ， 
在 NLP P, 为 了 测试 标 ; 


证 我 们 来 看 看 如 何 使 有 














主 器 、 分 











from future . 


PACE SOR EA TS 
单词 的 排名 与 其 频率 之 间 的 比例 关系 来 验 i 


多 可 用 于 执行 NLP 任务 的 相似 性 
这 将 有 利于 执行 
块 器 等 的 性 能 ， 可 以 使 
标准 分 〈 从 一 


freqs) 


fontsize=14, 


H- 








fontweight- 


'bold') 


fontweight-'bold') 


出 现 的 频率 的 双 对 数 图 。 因 此 , 我 们 
































E Zipf 定律 是 否 


FE 度量 。NLTK 中 的 nltk.metrics 包 用 
各 种 各 样 的 NLP 任务 。 











适 








j 于 所 有 





文档 。 

















于 提供 






































个 训练 文件 





中 获 


import print function 


from nltk.metrics import * 








ERSON OTHE 





training='P 


R PE 





RSON OTHER OTHE 























testing-'PERSON OTHE 


R OT 


HER OTHER OTHE 











R OTHER 








print (accuracy (training, 


0.6666666666666666 


>>> 


0.8 


trainset=set (training) 
testset=set (testing) 


66666666666666 








testing) ) 


precision (trainset,testset) 
print (recall (trainset,testset) ) 


print (f measure (trainset,testset) ) 


1.5.1 使 用 编辑 距离 算法 执行 相似 性 度量 


两 个 字符 串 之 间 的 编辑 距离 或 Levenshtein 
换 或 删除 的 字符 数量 。 


相等 所 插 











AY FRY 



































frs 





TO 
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Äi 


R ORGANIZATION' 
'.split() 





j 从 信息 检索 中 检索 到 的 标准 分 数 。 
取 的 ) 来 分 析 命 名 实体 识 








别 器 的 


.Split() 























编辑 








距离 














法 中 需要 执行 的 操作 包含 以 下 内 容 : 
将 字母 从 第 一 个 字符 串 复 制 到 多 


人 = 


第 二 个 字 











j 于 计算 为 了 使 两 个 字符 串 








字符 串 (cost X 0), 3 








pala 
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(cost 为 1 ): 
D(i-lj-1)- d(sitj) CE /复制 操作 ) 
。 JIERSE— ERE IRE Coost 为 D: 
D(Ljj-l)-1 HIRERE) 
。 在 第 二 个 字符 串 中 插入 一 个 字母 〈cost 为 1): 
D(ij)- min D(i-lj)^l (插入 操作 ) 
nltk.metrics 包 中 的 Edit Distance 算法 的 Python 代码 如 下 所 示 : 
































from future import print function 
def edit dist init(lenl, len2): 
lev = [] 


for i in range(lenl): 


for i in range(lenl): 

lev[i][0] i # column 0: 0,1,2,3,4,... 
for j in range(len2): 

lev[0] [j] = j E row 0: 0;1;5.2;3;7 4p ria 
return lev 


( 
lev.append([0] * len2) # initialize 2D array to zero 
( 


def edit dist _step(lev,i,j,s1,s2,transpositions=False) : 
cl =sl[i-1 
c2 -s2[j-1 


skipping a character in sl 
a -lev[i-1][j] +1 
Skipping a character in s2 
b -lev[i][j -1]+1 
substitution 
c =lev[i-1] [j-1]+(cl!=c2) 




















transposition 

d -c*1 # never picked by default 
if transpositions and i»1 and j>1: 
if sl[i -2]==c2 and s2[j -2]==cl: 
d =lev[i-2][j-2]+1 

# pick the cheapest 





lev[i] [Jj] =min (a,b,c,d) 





def edit distance(s1, s2, transpositions-False): 
# set up a 2-D array 
lenl = len(s1) 
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len2 = len(s2) 
lev = edit dist init(lenl + 1, len2 + 1) 





# iterate over the array 
for i in range(lenl): 
for j in range(len2): 
Sedit .drst:stepi(kew, 3 oT owedyoslau2; 
transpositions-transpositions) 
return lev[lenl] [len2] 





























让 我 们 看 一 看 使 用 NLTK PAY nltk.metrics 包 来 计算 编辑 距离 的 代码 : 























>>> import nltk 
>>> from nltk.metrics import * 
>>> edit distance ("relate","relation") 





>>> edit distance ("suggestion", "calculation") 

















这 里 ， 当 我 们 计算 relate 和 relation 之 间 的 编辑 距离 时 ， 需 要 执行 三 个 操作 (一 
个 替换 操作 和 两 个 插入 操作 )。 当 计算 suggestion 和 calculation 之 间 的 编辑 距离 时 ， 
需要 执行 七 个 操作 〈 六 个 替换 操作 和 一 个 插入 操作 )。 


1.5.2 ”使 用 Jaccard 系数 执行 相似 性 度量 
Jaccard 系数 或 Tanimoto 系数 可 以 认为 是 两 个 集合 X FY 交集 的 相似 程度 。 


它 可 以 定义 如 下 : 
e Jaccard(X, Y)=|XN Y|/|XUY]| - 






































e Jaccard(X,X)-1. 
e Jaccard(X,Y)-0 if XN Y=0. 
AK Jaccard 相似 度 的 代码 如 下 : 


def jacc_similarity(query, document): 
first=set (query) .intersection (set (document) ) 
second=set (query) .union (set (document) ) 
return len(first) /len (second) 


让 我 们 来 看 看 NLTK 中 Jaccard 相似 性 系数 的 实现 : 




















>>> import nltk 
>>> from nltk.metrics import * 
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>>> X-set([10,20,30,40]) 

>>> Y-set([20,30,60]) 

>>> print (jaccard distance (X,Y)) 
0.6 


1.5.3 ”使 用 Smith Waterman 距离 算法 执行 相似 性 度量 


Smith Waterman 距离 算法 类 似 于 编辑 距离 算法 。 开 发 这 种 相似 度 指标 以 便 检测 相关 和 蛋 
白质 序列 和 DNA 之 间 的 光学 比 对 。 它 包括 被 分 配 的 成 本 和 将 字母 表 映 射 到 成 本 值 的 函数 
(替换 )， 成 本 也 分 配给 gap 惩罚 〈 揪 入 或 删除 )。 


1. 0 /start over 



























































2. D(i-lj-1) —d(si, tj) //subst/copy 
3. D(ij) = max D(i-1,j) -G //insert 
1. D(ij-l) —G //delete 
. Distance is maximum over all ijj in table of 
[ a D(ij). ] 
4. G = 1 /example value for gap 
5. d(c,c) = —2 //context dependent substitution cost 


6. d(c,d) = +1 //context dependent substitution cost 


























与 编辑 距离 算法 类 似 ，Smith Waterman 的 Python 代码 可 以 代入 到 n1tk.metrics & 
中 ， 以 便 使 用 NLTK 中 的 Smith Waterman 算法 执行 字符 串 相 似 性 度量 。 


1.5.4. 其 他 字符 串 相 似 性 度量 

二 进 制 距离 是 一 个 字符 串 相 似 性 指标 。 如 果 两 个 标签 相同 ， 它 的 返回 值 为 0.0; 否则 ， 
它 的 返回 值 为 1. 0。 

二 进 制 距离 度量 的 Python 代码 为 : 


def binary distance(labell, label2): 
return 0.0 if labell == label2 else 1.0 


让 我 们 来 看 看 在 NLTK 中 如 何 实现 二 进 制 距离 算法 度量 : 




















































































































= 

















>>> import nltk 
>>> from nltk.metrics import * 
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>>> X = set([10,20,30,40]) 
>>> Y= set([30,50,70]) 
>>> binary distance (X, Y) 
1.0 


当 存在 多 个 标签 时 ，Masi 距离 基于 部 分 协议 。 




















包含 在 nltk.metrics 包 中 的 masi 距离 算法 的 Python 代码 如 下 : 


def masi distance(labell, label2): 
len intersection = len(labell.intersection(label2) ) 
len_union = len(labell.union(label2) ) 
len_labell = len(labell) 
len label2 = len(label2) 























if len labell == len label2 and len labell == len intersection: 
m= 1 
lif len intersection == min(len labell, len label2): 
m = 0.67 
lif len intersection > 0: 
m = 0.33 
else: 
m= 0 
return 1 - (len intersection / float(len union)) * m 
































让 我 们 来 看 看 NLTK 中 mas i 距离 算法 的 实现 : 








>>> import nltk 

>>> from future import print function 
>>> from nltk.metrics import * 

>>> X = set ([10,20,30,40]) 

>>> Y= set([30,50,70]) 

>>> print (masi distance (X,Y) ) 

0.945 





1.6 小 结 























Lt 


经 理解 了 字符 串 切 分 、 蔡 换 和 标准 化 的 概念 ， 以 及 使 用 NLTK 在 字符 串 上 应 用 各 种 相似 性 
度量 方法 。 此 外 我 们 还 讨论 了 可 能 适用 于 一 些 现 存 文档 的 Zipf 定律 。 


在 下 一 章 中 ， 我 们 将 讨论 各 种 语言 建 模 技 术 以 及 各 种 不 同 的 NLP 任务 。 


在 本 章 中 ， 你 已 经 学 会 了 各 种 可 以 在 文本 〔 由 字符 串 集合 组 成 ) 上 执行 的 操作 。 你 已 
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计算 语言 学 是 一 个 广泛 应 用 于 分 析 、 软 件 应 用 程序 和 人 机 交互 上 下 文 的 新 兴 领 域 。 我 
们 可 以 认为 其 是 人 工 智 能 的 一 个 子 领域 。 计算 语言 学 的 应 用 范围 包括 机 器 翻译 、 语音 识 别 、 
智能 Web 搜索 、 信 息 检索 和 智能 拼写 检查 等 。 理 解 各 种 可 以 在 自然 语言 文本 上 执行 的 预 处 
里 任务 或 者 计算 是 至 关 重 要 的 。 在 以 下 章节 中 ， 我 们 将 会 讨论 一 些 计 算 单词 频率 、 最 大 似 
然 估 计 CMaximum Likelihood Estimation, MLE) 模型 、 数 据 插值 等 的 方法 。 但 是 首先 让 我 
们 来 看 看 本 章 将 会 涉及 的 各 个 主题 ， 具 体 如 下 : 


。 计算 单词 频率 (1-gram，2-gram，3-gram)。 
。 为 给 定 的 文本 开发 MLE. 

。 在 MLE 模型 上 应 用 平滑 。 

。 为 MLE 开发 一 个 回 退 机 制 。 

。 应 用 数据 插值 以 获得 混合 搭配 。 

。 通过 复杂 度 来 评估 语言 模型 。 
。 在 语言 建 模 中 应 用 Metropolis-Hastings 算法 。 
。 在 语言 处 理 中 应 用 Gibbs 采样 法 。 


2.1 理解 单词 频率 











































































































































































































































































































词 的 搭配 可 以 被 定义 为 倾向 于 并 存 的 两 个 或 多 个 标识 符 的 集合 。 例 如 : the United States, 
the United Kingdom, Union of Soviet Socialist Republics 等 。 
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Unigram( 一 元 语法 ) 代 表单 个 标识 符 。 以 下 代码 用 于 为 Alpino 语料库 生成 unigrams: 





>>> import nltk 

>>> from nltk.util import ngrams 

>>> from nltk.corpus import alpino 

>>> alpino.words () 

['De', 'verzekeringsmaatschappijen', 'verhelen', ...]>>> 
unigrams-ngrams (alpino.words(),1) 

>>> for i in unigrams: 


print (i) 





考虑 另 一 个 有 关 从 alpino 语料库 生成 quadgrams 或 fourgrams( 四 元 语法 ) 的 例子 : 


>>> import nltk 

>>> from nltk.util import ngrams 

>>> from nltk.corpus import alpino 

>>> alpino.words() 

['De', 'verzekeringsmaatschappijen', 'verhelen', ...] 
>>> quadgrams-ngrams (alpino.words(),4) 

>>> for i in quadgrams: 

print (i) 





bigram (二 元 语法 ) 指 的 是 一 对 标识 符 。 为 了 在 文本 中 找到 bigrams， 首 先 需 要 搜索 
小 写 单词 , 把 文本 创建 为 小 写 单 词 列表 后 , 然后 创建 BigramCollocationFinder 实例 。 
在 nltk.metrics 包 中 找到 的 BigramAssocMeasures 可 用 于 在 文本 中 查找 bigrams: 













































































>>> import nltk 

>>> from nltk.collocations import BigramCollocationFinder 

>>> from nltk.corpus import webtext 

>>> from nltk.metrics import BigramAssocMeasures 

>>> tokens-[t.lower() for t in webtext.words('grail.txt')] 

>>> words-BigramCollocationFinder.from words (tokens) 

>>> words.nbest(BigramAssocMeasures.likelihood ratio, 10) 

PETLYA Sus ty, (arthur; rU). ea UU QUU. OE ep 6 wvallager:*; 
UY, CM ge EZ CONTE EE (CUIU t) ('obBU tty, -C black", 
'knight')] 




















在 上 面 的 代码 中 ， 我 们 可 以 添加 一 个 用 来 消除 停止 词 和 标点 符号 的 单词 过 滤器 : 








>>> from nltk.corpus import stopwords 

>>> from nltk.corpus import webtext 

>>> from nltk.collocations import BigramCollocationFinder 
>>> from nltk.metrics import BigramAssocMeasures 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
a 
"mu 


GE 


yo 


sor = se 
stops fi 
tokens=[ 
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t(stopwords.words('english')) 
lter = lambda w: len(w) « 3 or w in set 
t.lower() for t in webtext.words('grail.txt')] 


words-BigramCollocationFinder.from words (tokens) 


words.ap 


ply word filter(stops filter) 


words.nbest(BigramAssocMeasures.likelihood ratio, 10) 


black', ' 
mble'), ( 


un', 'awa 

















Ka 





knight'), ('clop', 'clop'), ('head', 'knight'), ('mumble', 
'squeak', 'squeak'), ('saw', 'saw'), ('holy', 'grail'), 
y'), ('french', 'guard'), ('cartoon', 'character') |] 


EE， 我 们 可 以 将 bigrams 的 频率 更 改 为 其 他 数字 。 























男 一 种 从 文本 中 生成 bigrams 的 方法 是 使 用 词汇 搭配 查找 器 ， 如 下 代码 所 示 : 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


[Ct 


'up 
('t 


import n 








ltk 





from nltk.collocation import * 

textl="Hardwork is the key to success. Never give up!" 

word = nltk.wordpunct tokenize(textl) 

finder - BigramCollocationFinder.from words (word) 

bigram measures = nltk.collocations.BigramAssocMeasures () 

value = finder.score ngrams (bigram measures.raw freq) 
Sorted(bigram for bigram, score in value) 

', 'Never'), ('Hardwork', 'is'), ('Never', 'give'), ('give', 

'), ('is', 'the'), ('key', 'to'), ('success', '.'), ('the', 'key'), 
o', 'success'), ('up', '!')] 


现在 让 我 们 看 看 另外 一 段 从 alpino 语料库 生成 bigrams 的 代码 : 


>>> 
>>> 
>>> 
>>> 


import n 
from nlt 
from nlt 


alpino.w 


['De', 'verz 





ltk 

k.util import ngrams 

k.corpus import alpino 

ords () 

ekeringsmaatschappijen', 'verhelen', ...] 


>>> bigrams tokens-ngrams (alpino.words(),2) 


>>> for i in bigrams tokens: 


pri 


nt (i) 








此 代码 将 从 alpino 语料库 生成 bigrams。 
现在 我 们 来 看 看 用 于 生成 trigrams 的 代码 : 











>>> import nltk 
>>> from nltk.util import ngrams 


>>> from nltk.corpus import alpino 
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>>> alpino.words() 

['De', 'verzekeringsmaatschappijen', 'verhelen', ...]>>> trigrams_ 
tokens-ngrams (alpino.words(),3) 

>>> for i in trigrams tokens: 


print (i) 

















为 了 生成 £ourgrams 并 生成 fourgrams 的 频率 ， 可 以 使 用 如 下 代码 : 





>>> import nltk 

>>> import nltk 

>>> from nltk.collocations import * 

>>> text="Hello how are you doing ? I hope you find the book 
interesting" 

>>> tokens-nltk.wordpunct tokenize (text) 

>>> fourgrams=nltk.collocations.QuadgramCollocationFinder.from_ 
words (tokens) 

>>> for fourgram, freq in fourgrams.ngram_fd.items(): 

print (fourgram, freq) 


'you', 'find', 'the', 'book') 1 
'I', 'hope', 'you', 'find') 1 


('hope', 'you', 'find', 'the') 1 
('Hello', 'how', 'are', 'you') 1 

(you; "doing", "rt VE ud 

(aret, Uyou'.- tdolng',; "9" 1 

('how', 'are', 'you', 'doing') 1 

('?', 'I', 'hope', 'you') 1 

('doing', '?', 'I', 'hope') 1 

('find', 'the', 'book', 'interesting!') 1 
( 

( 





现在 我 们 来 看 看 为 给 定 句 子 生成 ngrams (n 元 语法 ) 的 代码 : 


>>> import nltk 
>>> sent=" Hello , please read the book thoroughly . If you have any 
queries , then don't hesitate to ask . There is no shortcut to success 
2" 
>>> n=5 
>>> fivegrams=ngrams(sent.split(),n) 
>>> for grams in fivegrams: 
print (grams) 


('Hello', ',', 'please', 'read', 'the') 


(',', 'please', 'read', 'the', 'book') 
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'please', 'read', 'the', 'book', 'thoroughly') 
'read', 'the', 'book', 'thoroughly', '.') 


'the', 'book', 'thoroughly', '.', 'If') 
'book', 'thoroughly', '.', 'If', 'you') 
'thoroughly', '.', 'If', 'you', 'have') 


rnp "If", 'you', 'have', ‘any') 

'Tf', 'you', 'have', 'any', 'queries') 
'you', 'have', 'any', 'queries', ',') 
"have', 'any', 'queries', ',', 'then') 
'any', 'queries', ',', 'then', "don't") 


',', 'then', "don't", 'hesitate', 'to') 
'then', "don't", 'hesitate', 'to', 'ask') 
"don't", 'hesitate', 'to', 'ask', '.') 


'hesitate', 'to', 'ask', '.', 'There') 
"to", *àsk',; “et, Thern Sis) 
Vas kets bah Theret; Sis". "Uqmot) 





( 

( 

( 

( 

( 

( 

( 

( 

( 

( 

('queries', ',', 'then', "don't", 'hesitate') 
( 

( 

( 

( 

( 

( 

('.', 'There', 'is', 'no', 'shortcut') 
('There', 'is', 'no', 'shortcut', 'to'") 
('is', 'no', 'shortcut', 'to', 'success') 
( 


Chet, 'shortcub', "to', "'"success', re) 


2..1 为 给 定 的 文本 开发 MLE 


最 大 似 然 估计 (Maximum Likelihood Estimate, MLE), 是 NLP 领域 中 的 一 项 重要 任务 ， 
其 也 被 称 作 多 元 逻辑 回归 或 条 件 指数 分 类 器 。Berger 和 Della Pietra 曾 于 1996 SEH MSZ 
TE. BK EXE NLIK 中 的 nltk.classify.maxent 模块 里 ， 在 该 模块 中 ， 
所 有 的 概率 分 布 被 认为 是 与 训练 数据 保持 一 致 的 。 该 模型 用 于 指 代 两 个 特征 ， 即 输入 特征 
和 联合 特征 。 输 入 特征 可 以 认为 是 未 加 标签 单词 的 特征 ， 而 联合 特征 可 以 认为 是 加 标签 单 
词 的 特征 。MLE 用 于 生成 fredqdist， 它 包含 了 文本 中 给 定 标识 符 出 现 的 概率 分 布 。 参 数 
freqdist 由 作为 概率 分 布 基础 的 频率 分 布 组 成 。 


让 我 们 来 看 看 NLTK 中 有 关 最 大 迷 模型 的 代码 ; 
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from future import print function,unicode literals 
| docformat  -'epytext en' 
bry: 


import numpy 





except ImportError: 


pass 





DictionaryProbDist 














26 第 2 章 统计 语言 建 模 
import tempfile 
import os 
from collections import defaultdict 
from nltk import compat 
from nltk.data import gzip open unicode 
from nltk.util import OrderedDict 
from nltk.probability import 
from nltk.classify.api import ClassifierI 
from nltk.classify.util impor 
from nltk.classify.megam import (call megam, 
write megam file,parse megam weights) 
from nltk.classify.tadm impor 
weights 
在 以 上 代码 
中 单个 标识 符 出 现 的 频率 。 








ProbDistI H 











是 从 参数 中 获取 的 ， 例 如 方差 。 











t CutoffChecker,accuracy,log likelihood 


t call tadm,write tadm file,parse tadm 


H, nltk.probability 包含 了 FreqDist 类 ， 该 类 可 以 用 来 确定 文本 





日 于 确定 单个 标识 符 在 文本 中 出 现 的 概率 分 布 。 基 本 上 有 两 
派生 概率 分 布 和 分 析 概 率 分 布 。 派 生 概率 分 布 是 从 频率 分 布 























' 概 率 分 布 : 


FP 获取 的 ， 而 分 析 概 率 分 布 则 








为 了 获取 频率 分 布 ， 可 以 使 用 最 大 似 然 估 计 。 它 基于 各 个 标识 符 在 频率 分 布 中 的 频率 




















来 计算 其 概率 : 











class MLEProbDist (ProbDistI): 


"mnm 


此 函数 将 在 概率 分 布 的 基 而 


LL 


def 


def 


retu 














__init (self, freqdist, bins-None): 


self. freqdist - freqdist 


freqdist (self): 








def 


def 


rn self. freqdist 


prob(self, sample): 





return self. freqdist 


max(self): 
return self. freqdist 





上 找到 频率 分 布 : 


.freq(sample) 


.max() 


2.1 理解 单词 频率 27 


def samples (self): 





return self. freqdist.keys() 





def repr (self): 


"nnm 


It will return string representation of ProbDist 


"mnm 





return '<MLEProbDist based on $d samples>' $ self. 
freqdist.N() 


class LidstoneProbDist (ProbDistI): 


"mnm 











该 类 用 于 获取 频率 分 布 。 该 频率 分 布 由 实数 Gamma 表示 ， 其 取 值 范围 在 0 到 1 之 间 。 
LidstoneProbDist 使 用 计数 c、 样 本 结果 N 和 能 够 从 概率 分 布 中 获取 的 样本 值 B 来 计 
算 给 定 样 本 概率 的 公式 如 下 : (c*Gamma)/(N--B*Gamma). 

这 也 意味 着 将 Gamma 加 到 了 每 一 个 可 能 的 样本 结果 的 计数 上 ， 并 且 从 给 定 的 频率 分 
布 中 计算 出 了 MLE: 



















































































"mnm 





SUM TO ONE - False 
def | init (self, freqdist, gamma, bins-None): 


"mmm 




















Lidstone 用 于 计算 概率 分 布 以 便 获 取 £reqdist. 
参数 freqdist 可 以 定义 为 概率 估计 所 基于 的 频率 分 布 。 
































参数 bins 可 以 被 定义 为 能 够 从 概率 分 布 中 获取 的 样本 值 ， 概 率 的 总 和 等 于 1: 
if (bins == 0) or (bins is None and freqdist.N() == 0): 
name = self. class . name [:-8] 
raise ValueError('A $s probability distribution ' $ name + 


'must have at least one bin.') 





if (bins is not None) and (bins « freqdist.B()): 
name = self. class . name [:-8] 





raise ValueError('\nThe number of bins in a $s 


9. 


distribution ' $ name + 


9. 


'($d) must be greater than or equal to\n' $ bins + 





"the number of bins in the FreqDist used ' + 
"to create it ($d).' $ freqdist.B()) 


28 


第 2 章 统计 语言 建 模 





self. freqdist = freqdist 
self. gamma = float (gamma) 
self. N = self. freqdist.N() 





if bins is None: 
bins = freqdist.B() 
self. bins = bins 


self. divisor = self. N + bins * gamma 


if self. divisor == 0.0: 





# In extreme cases we forc 


the probability to be 0, 


# which it will be, since the count will be 0: 


self. gamma = 0 


self. divisor = 1 


def freqdist (self): 


woe 





数 基于 概率 分 布 获 取 了 频率 分 布 : 


Sel 
A 


"nmm 





return self. freqdist 


def prob(self, sample): 
c = self. freqdist[sample] 


return (c * self. gamma) / self. divisor 


def max(self): 


# To obtain most probable sample, choose the one 


f that occurs very frequently. 





return self. freqdist.max() 


def samples (self): 





return self. freqdist.keys() 


def discount(self): 
gb = self. gamma * self. bins 
return gb / (self. N + gb) 





def repr (self): 


"mnm 


String representation of ProbDist is obtained. 


来 计 


最 大 
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woe 


return '«LidstoneProbDist based on $d samples>' $ self. _ 
freqdist.N() 


class LaplaceProbDist (LidstoneProbDist) : 


"mnm 








该 类 用 于 获取 频率 分 布 。 它 使 用 计数 c、 样 本 结果 N 和 能 够 被 生成 的 样本 值 的 频率 B 
个 样本 的 概率 ， 计 算 公 式 如 下 : 

(c+1)AN+B) 
这 也 意味 着 将 1 加 到 了 每 一 个 可 能 的 样本 结果 的 计数 上 ， 并 且 获 取 了 所 得 频率 分 布 的 
WERT 





















































"mmm 


def init (self, freqdist, bins-None): 


"mmm 





LaplaceProbDist 用 于 获取 为 生成 freqdi st 的 概率 分 布 。 
参数 freqdist 用 于 获取 基于 概率 估计 的 频率 分 布 。 
参数 bins 可 以 被 认为 是 能 够 被 生成 的 样本 值 的 频率 。 概 率 的 总 和 必须 为 1: 






































woe 


LidstoneProbDist. init (self, freqdist, 1, bins) 


def repr (self): 





"mnm 


String representation of ProbDist is obtained. 
nw 

return '«LaplaceProbDist based on $d samples»' $ self. 
freqdist.N() 





class ELEProbDist (LidstoneProbDist): 


"mnm 

















该 类 用 于 获取 频率 分 布 。 它 使 用 计数 c， 样 本 结果 N 和 能 够 被 生成 的 样本 值 的 频率 B 














来 计算 一 个 样本 的 概率 ， 计 算 公 式 如 下 : 
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(c+0.5)(N+B/2) 


这 也 意味 着 将 0.5 加 到 了 每 一 个 可 能 的 样本 结果 的 计数 上 ,并 且 获 取 了 所 得 频率 分 布 
的 最 大 似 然 估计 : 




















woe 


def init (self, freqdist, bins=None) : 


"mmm 








预期 似 然 估 计 用 于 获取 生成 freqdist 的 概率 分 布 。 参 数 freqdist 用 于 获取 基于 概 
率 估计 的 频率 分 布 。 


参数 bins 可 以 被 认为 是 能 够 被 生成 的 样本 值 的 频率 。 概 率 的 总 和 必须 为 1: 




















wr 


LidstoneProbDist. init (self, freqdist, 0.5, bins) 


def repr (self): 





"mmm 


String representation of ProbDist is obtained. 


"mnm 














return '«ELEProbDist based on $d samples>' $ self. 
freqdist.N() 


class WittenBellProbDist(ProbDistI): 


"mnm 























WittenBellProbDist 类 用 于 获取 概率 分 布 。 在 之 前 看 到 的 样本 频率 的 基础 上 ， 该 
类 用 于 获取 均匀 的 概率 质量 。 关 于 样本 概率 质量 的 计算 公式 如 下 : 


T/(N * T) 


XX Hi, T 是 观察 到 的 样本 数 ，N 是 观察 到 的 事件 的 总 数 。 样 本 的 概率 质量 等 于 即将 出 
现 的 新 样本 的 最 大 似 然 估计 。 所 有 概率 的 总 和 等 于 1: 
































Here, 
p=T 
c 


Z (N + T), if count = 0 
p= ( 


N + T), otherwise 





woe 


def init (self, freqdist, bins=None) : 


"mnm 


2.4. 理解 单词 频率 31 























此 段 代 码 获取 了 概率 分 布 。 该 概率 用 于 向 未 知 的 样本 提供 均匀 的 概率 质量 。 样 本 的 概 
率 质 量 计算 公式 给 出 如 下 : 











T/(N+T) 


这 里 ，7 是 观察 到 的 样本 数 ，N 是 观察 到 的 事件 的 总 数 。 样 本 的 概率 质量 等 于 即将 出 
现 的 新 样本 的 最 大 似 然 估计 。 所 有 概率 的 总 和 等 于 1: 























Here, 
p=T 
P c 

Z 是 使 用 这 些 值 和 一 个 bin 值 计算 出 的 规范 化 因子 。 

参数 £reqdist 用 于 估算 可 以 从 中 获取 概率 分 布 的 频率 计数 。 

BH bins 可 以 定义 为 样本 的 可 能 类 型 的 数量 : 


Z (N + T), if count = 0 
(N + T), otherwise 















































cr 





















































"mmm 


assert bins is None or bins >= freqdist.B(),\ 
‘bins parameter must not be less than $d-freqdist.B()' $ freqdist.B() 
if bins is None: 
bins = freqdist.B() 
self. freqdist = freqdist 
self. T = self. freqdist.B() 
self. Z - bins - self. freqdist.B() 
self. N = self. freqdist.N() 
* self. PO is P(0), precalculated for efficiency: 
if self. N--0: 
# if freqdist is empty, we approximate P(0) by a 














UniformProbDist: 
self. PO = 1.0 / self. 2 
else: 
self. PO = self. T / float(self. Z * (self. N + self. T)) 


def prob(self, sample): 
# inherit docs from ProbDistI 
c = self. freqdist[sample] 
return (c / float(self. N + self. T) if c != 0 else self. PO) 


def max(self): 
return self. freqdist.max() 





def samples (self): 
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return self. freqdist.keys() 





def freqdist(self): 
return self. freqdist 





def discount (self): 





raise NotImplementedError () 





def repr (self): 





"mnm 


String representation of ProbDist is obtained. 


"nnm 


return '«WittenBellProbDist based on $d samples»' $ self. 
freqdist.N() 


我 们 可 以 使 用 最 大 似 然 估计 来 执行 测试 ， 让 我 们 考虑 如 下 NLTK 中 有 关 MLE 的 代码 : 

















>>> import nltk 
>>> from nltk.probability import * 
>>> train and test (mle) 

















28.76% 

>>> train and test(LaplaceProbDist) 
69.16% 

>>> train and test (ELEProbDist) 
76.38% 


>>> def lidstone (gamma): 
return lambda fd, bins: LidstoneProbDist(fd, gamma, bins) 


>>> train and test(lidstone(0.1)) 
86.17$ 
>>> train and test(lidstone(0.5)) 
76.38% 
>>> train_and_test(lidstone(1.0)) 
69.16% 


2.1.2 隐 马 尔 科 夫 模型 估计 


隐 马 尔 科 夫 模型 (Hidden Markov Model, HMM) 包含 观察 状态 和 帮助 确定 观察 状态 
的 隐藏 状态 。 我 们 来 看 看 关于 HMM 的 图 解说 明 ， 如 图 2-1 所 示 ，x 表示 隐藏 状态 ，y 表示 
观察 状态 。 


























2.1 理解 单词 频率 











图 2-1 


我 们 可 以 使 用 HMM 估计 执行 测试 ， 让 我 们 考虑 如 下 使 用 Brown 语料库 的 代码 : 

















>>> import nltk 

>>> corpus = nltk.corpus.brown.tagged_sents (categories='adventure') 
[: 700] 

>>> print (len (corpus) ) 

700 

>>> from nltk.util import unique list 





>>> tag set = unique list(tag for sent in corpus for (word,tag) in 
sent) 

>>> print(len(tag set)) 

104 

>>> symbols = unique list(word for sent in corpus for (word,tag) in 
sent) 

>>> print (len (symbols)) 


1908 

>>> print(len(tag set)) 

104 

>>> symbols = unique list(word for sent in corpus for (word,tag) in 
sent) 


>>> print (len(symbols)) 

1908 

>>> trainer = nltk.tag.HiddenMarkovModelTrainer(tag set, symbols) 
>>> train_corpus = [] 

>>> test_corpus = [] 

>>> for i in range(len(corpus)): 

if i $ 10: 

train corpus += [corpus[i]] 

else: 

test corpus += [corpus[i]] 


>>> print(len(train corpus)) 
630 
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>>> print (len(test corpus)) 


70 
>>> def train and test (est): 
hmm = trainer.train supervised(train corpus, estimator=est) 


9. 


print('$.2f$$' $ (100 * hmm.evaluate(test corpus))) 














在 上 面 的 代码 中 , 我 们 创建 了 一 个 90% 用 于 训练 和 10% 用 于 测试 的 文件 ， 并且 我 们 已 
经 测试 了 估计 量 。 


2.2 在 MLE 模型 上 应 用 平滑 





T 








~ 





























平滑 (Smoothing) 用 于 处 理 之 前 未 曾 出 现 过 的 单词 。 因 此 ， 未 知 单词 的 概率 为 0。 为 
了 解决 这 个 问题 ， 我 们 使 用 了 平滑 。 


2.2.1 加 法 平滑 
在 18 世纪 ，Laplace 发 明了 加 法 平滑 。 在 加 法 平滑 中 ， 需 要 将 每 个 单词 的 计数 加 1. 
除了 1 之 外 ， 任 何其 他 数值 均 可 以 被 加 到 未 知 单词 的 计数 上 ， 以 便 未 知 单词 可 以 被 处 理 并 


使 它们 的 概率 不 为 0。 伪 计数 是 指 被 加 到 未 知 单词 计数 上 以 使 其 概率 不 为 0 的 值 CRI 1 
或 非 0 值 )。 


让 我 们 考虑 如 下 NLTK 中 有 关 加 法 平滑 的 代码 ; 




















































































































>>> import nltk 

>>> corpus=u"<s> hello how are you doing ? Hope you find the book 
interesting. </s>".split() 

>>> sentence=u"<s>how are you doing</s>".split() 

>>> vocabulary=set (corpus) 

>>> len (vocabulary) 

13 
>>> cfd = nltk.ConditionalFreqDist (nltk.bigrams (corpus) ) 


>>> The corpus counts of each bigram in the sentence: 
>>> [cfd[a] [b] for (a,b) in nltk.bigrams (sentence) ] 
0r 14.0 
>>> The counts for each word in the sentence: 
>>> [cfd[a].N() for (a,b) in nltk.bigrams (sentence) ] 
0, 1,--2 











>>> There is already a FreqDist method for MLE probability: 








>>> [cfd[a].freq(b) for (a,b) in nltk.bigrams (sentence) ] 
0, 1.0, 0.0] 
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>>> Laplace smoothing of each bigram count: 

>>> L + cfd[a] [b] for (a,b) in nltk.bigrams (sentence) ] 

[1, 2, 1] 

>>> We need to normalise the counts for each word: 

>>> [len (vocabulary) + cfd[a].N() for (a,b) in nltk.bigrams (sentence) ] 
[13, 14, 15] 

>>> The smoothed Laplace probability for each bigram: 

>>> [1.0 * (ltcfd[a][b]) / (len(vocabulary)+cfd[a].N()) for (a,b) in 
nltk.bigrams (sentence) ] 

[0.07692307692307693, 0.14285714285714285, 0.06666666666666667] 





考虑 另 一 种 执行 加 法 平滑 或 者 说 生成 Laplace 概率 分 布 的 方法 : 





>>> LEProbDist is the unsmoothed probability distribution: 
>>> cpd mle = nltk.ConditionalProbDist (cfd, nltk.MLEProbDist, 
bins=len (vocabulary) ) 








>>> Now we can get the MLE probabilities by using the .prob method: 
>>> [cpd_mle[a].prob(b) for (a,b) in nltk.bigrams (sentence) ] 

[0, 1.0, 0.0] 

>>> LaplaceProbDist is the add-one smoothed ProbDist: 

>>> cpd laplace = nltk.ConditionalProbDist (cfd, nltk.LaplaceProbDist, 
bins=len (vocabulary) ) 





i! 


>>> Getting the Laplace probabilities is the same as for MLE: 














>>> [cpd_laplace[a].prob(b) for (a,b) in nltk.bigrams (sentence) ] 
[0.07692307692307693, 0.14285714285714285, 0.06666666666666667] 


2.2.2 Good Turing 平滑 





























Good Turing 平滑 是 由 Alan Turing 和 他 的 统计 助理 LJ. Good 提出 的 。 这 是 一 种 有 效 的 
平滑 方法 , 这 种 方法 提高 了 用 于 执行 语言 学 任务 的 统计 技术 的 性 能 , 例如 词义 消 歧 (WSD)、 
命名 实体 识别 (NER)、 拼 写 校 正 、 机 器 翻译 等 。 此 方法 有 助 于 预测 未 知 对 象 的 概率 。 在 该 
方法 中 ， 我 们 感 兴趣 的 对 象 服从 二 项 分 布 。 在 大 样本 量 的 基础 上 ， 该 方法 可 用 于 计算 出 现 
0 次 或 出 现 较 低 次 数 样本 的 质量 概率 。 通 过 对 对 数 空 间 上 的 一 条 线性 直线 进行 线性 回归 运 
算 ，Simple Good Turing 可 以 执行 从 一 个 频率 到 另 一 个 频率 的 近似 估计 。 如 果 cA 是 调整 后 的 
计数 ， 它 将 计算 如 下 : 






















































































cl=(c+1)Nc+1)/Nc) c>=1 
c == 0， 训 练 文件 中 的 零 频率 的 样本 = M). 
这 里 ，c 是 初始 计数 ，NQ) 是 用 计数 i 观察 到 的 事件 类 型 的 数量 。 



































a 
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Bill Gale 和 Geoffrey Sampson 已 经 呈现 了 Simple Good Turing 平滑 : 
class SimpleGoodTuringProbDist(ProbDistI): 


"mnm 


Given a pair (pi, qi), where pi refers to the frequency and 


qi refers to the frequency of frequency, our aim is to minimize 


























the 
Square variation. E(p) and E(q) is the mean of pi and qi. 
- slope, b = sigma ((pi-E(p) (qi-E(q))) / sigma ((pi-E(p)) (pi-E(p))) 
- intercept: a = E(q) - b.E(p) 
noww 
SUM TO ONE - False 
def init (self, freqdist, bins-None): 


"mnm 


param freqdist refers to the count of frequency from which 
probability 





distribution is estimated. 





Param bins is used to estimate the possible number of samples. 
"nn 

assert bins is None or bins > freqdist.B(),\ 
"bins parameter must not be less than $d-freqdist.B()*1' $ 
(freqdist.B()+1) 

if bins is None: 

bins = freqdist.B() + 1 
self. freqdist = freqdist 
self. bins = bins 





r, nr = self. r Nr() 
self.find best fit(r, nr) 
self. switch(r, nr) 


self. renormalize(r, nr) 


def r Nr non zero(self): 
r Nr = self. freqdist.r Nr() 
del r Nr[0] 
return r Nr 

def r Nr(self): 


"mnm 


Split the frequency distribution in two list (r, Nr), where Nr(r) > 0 


"mnm 


nonzero = self. r Nr non zero() 
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if not nonzero: 


return [], [ 





return zip(*sorted(nonzero.items())) 


def find best fit(self, r, nr): 


"mmm 


Use simple linear regression to tune parameters self. slope 











and self. intercept in the log-log space based on count and 


Nr(count) (Work in log space to avoid floating point underflow.) 


"mnm 





For higher sample frequencies the data points becomes 
horizontal 
along line Nr-1. To create a mor vident linear model in 





log-log 
space, we average positive Nr values with the surrounding 


zero 








values. (Church and Gale, 1991) 


if not r or not nr: 


# Empty r or nr? 





return 


zr = [] 


for j in range(len(r)): 


i = (r[j-1] if j > 0 else 0) 
k= (2 * r[j] - i if j == len(r) - 1 else r[j+1]) 
zr = 2.0 * nr[j] / (k - i) 


zr.append(zr ) 


log r = [math.log(i) for i in r] 

log zr = [math.log(i) for i in zr] 

xy cov = x var = 0.0 

x mean = 1.0 * sum(log r) / len(log r) 

y mean = 1.0 * sum(log zr) / len(log zr) 


for (x, y) in zip(log r, log zr): 


Xy cov += (x - x mean) * (y - y mean) 
X var += (x - x mean)**2 
self. slope - (xy cov / x var if x var !- 0 else 0.0) 


if self. slope »- -1: 
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warnings.warn('SimpleGoodTuring did not find a proper best 


fit ' 
'line for smoothing probabilities of occurrences. ' 





'The probability estimates are likely to be ' 
'unreliable.') 
self. intercept - y mean - self. slope * x mean 





def _switch (self, r, nr): 


woe 


Calculate the r frontier where we must switch from Nr to Sr 





when estimating E[Nr]. 
nowow 
for i, r in enumerate(r): 
if len(r) == i + lor r[i+1] != +1: 
# We are at th nd of r, or there is a gap in r 





self. switch at =r 





break 


Sr = self.smoothedNr 
smooth r star = (r + 1) * Sr(r *1) / Sr(r_) 
unsmooth r star = 1.0 * (r +1) * nr[i*1] / nr[i] 
std = math.sqrt(self. variance(r , nr[i], nr[i*1])) 
if abs(unsmooth r star-smooth r star) «- 1.96 * std: 


self. switch at =r 





break 


def variance(self, r, nr, nr 1): 
r = float (r) 
nr = float(nr) 
nr l - float(nr 1) 
return (rb 1.0)**2 * tnr L7 nr**2) * (120-- oor l7 ait) 


def renormalize(self, r, nr): 


"mnm 











重 整 化 对 于 确保 获取 到 正确 的 概率 分 布 是 至 关 重 要 的 。 它 可 以 通过 公式 NCIYN 对 未 知 











的 样本 进行 概率 估计 ， 然 后 对 所 有 之 前 所 见 的 样本 概率 进行 重 整 来 获取 : 











noww 
prob cov - 0.0 
for r ,nr in zip(r, nr): 


prob cov += nr * self. prob measure(r ) 


"nnm 


"mnm 


"mnm 


"mnm 


def 


def 


def 
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if prob cov: 
self. renormal - (1 - self. prob measure(0)) / prob cov 


smoothedNr(self, r): 


Return the number of samples with count r. 


Nr = a*r^b (with b « -1 to give the appropriate hyperbolic 
relationship) 





Estimate a and b by simple linear regression technique on 
the logarithmic form of the equation: log Nr = a + b*log(r) 





return math.exp(self. intercept + self. slope * math.log(r)) 


prob(self, sample): 


Return the sample's probability. 


count = self. freqdist[sample] 


p = self. prob measure (count) 
if count == 0: 
if self. bins == self. freqdist.B(): 
p = 0.0 
else: 


p p / (1.0 * self. bins - self. freqdist.B()) 


else: 





p = p * self. renormal 


return p 


prob measure (self, count): 
if count == 0 and self. freqdist.N() == 
return 1.0 
elif count == 0 and self. freqdist.N() != 0: 
return 1.0 * self. freqdist.Nr(1) / self. freqdist.N() 
if self. switch_at > count: 
1=1.0 * self. freqdist.Nr(count+1) 
= 1.0 * self. freqdist.Nr (count) 


H 


回回 


H 


else: 
r 1 = self.smoothedNr (count+1) 
r = self.smoothedNr (count) 

















r star = (count + 1) * Er 1 / Er 
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return r star / self. freqdist.N() 


def check(self): 
prob sum - 0.0 
for i in range(0, len(self. Nr)): 
prob sum += self. Nr[i] * self. prob measure(i) / self. 
renormal 
print("Probability Sum:", prob sum) 
#assert prob sum != 1.0, "probability sum should be one!" 


def discount(self): 


"mnm 


It is used to provide the total probability transfers from the 


Seen events to the unseen events. 


"mn 


return 1.0 * self.smoothedNr(1) / self. fregdist.N() 


def max(self): 


return self. freqdist.max() 





def samples (self): 





return self. freqdist.keys() 


def freqdist(self): 
return self. freqdist 

















def repr (self): 


"mnm 


It obtains the string representation of ProbDist. 


"nnm 


return '«SimpleGoodTuringProbDist based on $d samples>'\ 
$ self. freqdist.N() 





让 我 们 来 看 看 NLTK 中 有 关 Simple Good Turing 的 代码 : 

















>>> gt = lambda fd, bins: SimpleGoodTuringProbDist(fd, bins-1e5) 
>>> train and test (gt) 
52e 


2.2.3 Kneser Ney 平滑 














Kneser Ney 平滑 是 与 trigrams 一 起 使 用 的 。 让 我 们 来 看 看 下 面 NLTK 中 的 有 关 Kneser 
Ney 平滑 的 代码 : 




















2.3 为 MLE 开发 一 个 回 退 机 制 





>>> import nltk 
>>> corpus = [[((x[0],y[0],z[0]), (x[1],y[1],z[1])) 
for x, y, z in nltk.trigrams(sent) ] 
for sent in corpus[:100]] 
>>> tag set = unique list(tag for sent in corpus for (word,tag) in 


sent) 

>>> len(tag set) 

906 

>>> symbols = unique list(word for sent in corpus for (word,tag) in 
sent) 


>>> len(symbols) 

1341 

>>> trainer = nltk.tag.HiddenMarkovModelTrainer(tag set, symbols) 
>>> train corpus = [] 

>>> test corpus = [] 

>>> for i in range(len(corpus)): 

if i $ 10: 

train corpus += [corpus[il] 

else: 
test corpus += [corpus[i]] 


>>> len(train corpus) 
90 
>>> len(test corpus) 

10 

>>> kn = lambda fd, bins: KneserNeyProbDist (fd) 
>>> train and test(kn) 

0.86$ 


2.24 Witten Bell 平滑 
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Witten Bell 是 用 于 处 理 具 有 0 概率 的 未 知 单词 的 一 种 平滑 算法 .让 我 们 考虑 如 下 NLTK 




















中 关于 Witten Bell 平滑 的 代码 : 


>>> train and test (WittenBellProbDist) 
6.90% 


2.3 为 MLE 开发 一 个 回 退 机 制 














Katz 回 退 模型 可 以 认为 是 一 个 具备 高 效 生产 力 的 n gram 语言 模型 ， 如 果 在 n gram 4 
够 给 出 一 个 指定 标识 符 的 先前 信息 ， 那 么 该 模型 可 以 计算 出 其 条 件 概率 。 依 据 这 个 模型 ， 





























eu 
PEE 


在 
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训练 文件 中 ， 如 果 n gram 出 现 的 次 数 多 于 n 次 , 在 已 知 其 先前 信息 的 条 件 下 ， 标 识 符 的 条 件 
概率 与 该 n gram 的 MLE 成 正比 。 否 则 ， 条 件 概率 相当 于 (n-1) gram 的 回 退 条 件 概率 。 

以 下 是 NLTK FEX Katz 回 退 模型 的 代码 : 






























































def prob(self, word, context): 


woe 





Evaluate the probability of this word in this context using Katz 
Backoff. 

: param word: the word to get the probability of 

: type word: str 

:Param context: the context the word is in 





:type context: list (str) 


woe 


context = tuple (context) 





if(context+(word,) in self. ngrams) or (self. n == 1): 

return self [context] .prob (word) 

else: 

return self. alpha(context) * self. backoff.prob(word,context[1:]) 


2.4 应 用 数据 的 插值 以 便 获 取 混 合 搭配 











使 用 加 法 平滑 模型 bigram 的 局 限 是 当 我 们 处 理 罕见 文本 时 就 会 回 退 到 一 个 不 可 知 的 状 
态 。 例 如 ， 单 词 captivating 在 训练 数据 中 出 现 了 五 次 ， 其 中 三 次 出 现在 by 之 前 ， 两 次 出 现 
在 the 之 前 。 使 用 加 法 平滑 模型 ， 在 captivating ZA, a 和 new 的 出 现 频率 是 一 样 的 。 这 两 
情况 都 是 合理 的 , 但 与 后 者 相 比 前 者 出 现 的 可 能 性 更 大 。 这 个 问题 可 以 通过 使 用 unigram 
概率 模型 来 修正 。 我 们 可 以 开发 一 个 能 够 结合 unigram 和 bigram 概率 模型 的 插值 模型 。 

在 语言 模型 训练 工具 SRILM 中 ， 我 们 先 通 过 用 -order 1 来 训练 unigram 模型 并 用 
-order 2 来 训练 bigram 模型 来 执行 插值 模型 : 












































































































































ngram - count - text / home / linux / ieng6 / lnl65w / public / data 
/ engand hintrain . txt \ - vocab / home / linux / ieng6 / ln165w / 
public / data / engandhinlexicon . txt \ - order 1 - addsmooth 0.0001 
- lm wsjl . lm 
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NLTK 中 的 nltk.model.ngram 模块 有 一 个 子 模块 perplexity (text) 。 这 个 子 
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模块 用 于 评估 指定 文本 的 复杂 度 。 复 杂 度 CPerplexity) 被 定义 为 文本 的 2 HEI. AA 
度 定义 了 概率 模型 或 概率 分 布 是 怎样 被 用 于 预测 文本 的 。 
nltk.model.ngram 模块 中 所 呈现 的 用 于 评估 文本 复杂 度 的 代码 如 下 : 



























































def perplexity(self, text): 


wo 


Calculates the perplexity of the given text. 
This is simply 2 ** cross-entropy for the text. 


:param text: words to calculate perplexity of 
:type text: list(str) 


"mnm 


return pow(2.0, self.entropy(text)) 


2.6 在 语言 建 模 中 应 用 Metropol is-Hastings 算法 





在 马尔 科 夫 链 蒙 特 卡 罗 (Markov Chain Monte Carlo, MCMC) 中 有 多 种 关于 后 验 概 率 的 
执行 处 理 方法 。 一 种 方法 是 使 用 Metropolis-Hastings 采样 器 。 为 了 实现 Metropolis-Hastings 
算法 ， 我 们 需要 标准 的 均匀 分 布 、 建 议 分 布 和 与 后 验 概率 成 正比 的 目标 分 布 。 下 面 的 话题 
谈论 了 一 个 有 关 Metropolis-Hastings 算法 的 示例 。 


2.7 在 语言 处 理 中 应 用 Gibbs 采样 法 







































































在 Gibbs 采样 法 的 帮助 下 ， 可 以 通过 从 条 件 概率 中 采样 建立 马尔 科 夫 链 。 当 完成 了 对 
所 有 参数 的 迭代 时 ， 就 完成 了 一 次 Gibbs 采样 周期 。 当 不 能 从 条 件 分 布 中 采样 时 ， 则 可 以 
使 用 Metropolis-Hastings 算法 ， 这 被 称 作 Metropolis within Gibbs. Gibbs 采样 法 可 以 认为 是 
具有 特殊 建议 分 布 的 Metropolis-hastings 采样 法 。 在 每 一 次 迭代 中 ,我 们 为 每 一 个 特定 参数 
的 新 值 抽取 一 个 建议 值 。 


考虑 一 个 关于 投掷 两 枚 硬币 的 例子 , 它 以 一 枚 硬币 正面 朝 上 的 次 数 和 掷 币 次 数 为 表征 ; 
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def bern(theta,z,N): 

"""Bernoulli likelihood with N trials and z successes.""" 
return np.clip(theta**z* (1-theta) ** (N-z),0,1) 

def bern2(thetal,theta2,z1,z2,N1,N2): 

"""Bernoulli likelihood with N trials and z successes.""" 
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return bern(thetal,z1,N1)*bern(theta2,z2,N2) 


def make thetas (xmin,xmax,n): 





xs-np.linspace (xmin,xmax,n) 

widths- (xs[1:]-xs[:-1]) /2.0 

thetas-xs[:-1]-*widths 

return thetas 

def make plots(X,Y,prior,likelihood,posterior,projection-None): 
fig,ax-plt.subplots(1,3,subplot kw-dict (projection-projection,aspect-' 








equal'),figsize-(12,3)) 

if projection--'3d': 

ax[0].plot surface(X,Y,prior,alpha-0.3,cmap-plt.cm.jet) 
ax[1].plot surface(X,Y,likelihood,alpha-0.3,cmap-plt.cm.jet) 
ax[2].plot surface(X,Y,posterior,alpha-0.3,cmap-plt.cm.jet) 
else: 

ax[0].contour (X, Y,prior) 

ax[1].contour(X,Y,likelihood) 

ax[2].contour(X,Y, posterior) 

ax[0].set title('Prior') 

ax[1].set title('Likelihood') 

ax[2].set title('posteior') 











plt.tight layout() 

thetasl-make thetas(0,1,101) 
thetas2-make thetas(0,1,101) 
X,Y-np.meshgrid(thetasl,thetas2) 


























对 于 Metropolis 算法 ， 可 考虑 以 下 值 : 


zl-11 
N1=14 
Z2=7 

N2=14 


prior-lambda thetal,theta2:stats.beta(a,b).pdf(thetal)*stats.beta(a,b). 
pdf (theta2) 

lik=partial (bern2,z1=z1,z2=z2,N1=N1,N2=N2) 

target-lambda thetal,theta2:prior(thetal,theta2)*lik(thetal,theta2) 











theta-np.array([0.5,0.5]) 
niters-10000 
burnin-500 
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sigma=np.diag([0.2,0.2]) 


thetas=np.zeros ((niters-burnin, 2) ,np.float) 

for i inrange(niters): 

new theta-stats.multivariate normal (theta,sigma) .rvs() 
p=min (target (*new_ theta) /target (*theta) ,1) 

if np.random.rand()<p: 
theta-new theta 
if i»-burnin: 
thetas[i-burnin]=theta 
kde=stats.gaussian_kde(thetas.T) 
XY-np.vstack([X.ravel(),Y.ravel()]) 











posterior metroplis=kde (XY) .reshape (X.shape) 

make plots(X,Y,prior(X,Y),lik(X,Y),posterior metroplis) 
make plots(X,Y,prior(X,Y),lik(X,Y),posterior 
metroplis,projection-2'3d') 





对 于 Gibbs， 可 考虑 以 下 值 : 
a=2 
b=3 




















zl-11 
N1=14 
Z2=7 

N2=14 


prior-lambda thetal,theta2:stats.beta(a,b).pdf(thetal)*stats. 
beta(a,b).pdf (theta2) 

lik=partial (bern2,z1=z1,z2=z2,N1=N1,N2=N2) 

target-lambda thetal,theta2:prior(thetal,theta2)*lik(thetal,theta2) 











theta-np.array([0.5,0.5]) 
niters-10000 

burnin-500 
sigma-np.diag([0.2,0.2]) 


hetas-np.zeros((niters-burnin,2),np.float) 


Fh ct 
O 
Ñ 


i inrange(niters): 
theta=[stats.beta (a+z1,b+N1-z1).rvs(),theta[1]] 
theta=[theta[0],stats.beta(at+z2,b+N2-z2) .rvs()] 


if i>=burnin: 











thetas[i-burnin]-theta 
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kde=stats.gaussian_kde(thetas.T) 

XY-np.vstack([X.ravel(),Y.ravel()]) 

posterior gibbs-kde (XY) .reshape (X.shape) 

make plots(X,Y,prior(X,Y),lik(X,Y), posterior gibbs) 

make plots (X,Y,prior(X,Y),1lik(X,Y), posterior gibbs,projection-'3d') 


在 上 面 有 关 Metropolis 和 Gibbs 的 代码 中 ， 可 以 获取 到 先 验 概 率 、 似 然 估计 和 后 验 概 
率 的 2D 和 3D 图 。 























2.8 小 结 





在 本 章 中 ， 我 们 讨论 了 单词 频率 Cunigram. bigram 和 trigram)。 你 已 经 学 习 了 最 大 似 
然 估 计 以 及 它 在 NLTK 中 的 实现 。 此 外 我 们 还 讨论 了 插值 法 、 回 退 法 、Gibbs 采样 法 和 
Metropolis-hastings 算法 。 同 时 我 们 还 讨论 了 如 何 通过 复杂 度 来 进行 语言 建 模 。 

在 下 一 章 中 ， 我 们 将 讨论 词 干 提取 器 (Stemmer) 和 词 形 还 原 器 (Lemmatizer)， 以 及 
使 用 机 器 学 习 工 具 创 建 形态 生成 器 (Morphological generator). 

































































形态 学 : 在 实践 中 学 习 


















































形态 学 可 以 定义 为 使 用 语素 对 单词 的 构成 进行 研究 , 语素 是 具有 意义 的 最 小 语言 单位 。 
本 章 中 ， 我 们 将 会 介绍 词 干 提取 和 词 形 还 原 ， 以 及 有 关 非 英文 语言 的 词 干 提取 器 和 词 形 还 
原 器 ， 使 用 机 器 学 习 工 具 开 发 形态 分 析 器 和 形态 生成 器 ， 还 会 介绍 搜索 引擎 及 其 他 诸如 此 


类 的 概念 。 


简 而 言 之 ， 本 章 将 包含 以 下 主题 : 




































































。 理解 词 干 提取 器 。 
。 理解 词 形 还 原 。 
。 为 非 英文 语言 开发 词 干 提取 器 。 
。 形态 分 析 器 。 
。 形态 生成 器 。 
。 搜索 引擎。 


























3.1 形态 学 简介 



































形态 学 可 以 定义 为 在 语素 的 帮助 下 对 标识 符 的 构成 进行 研究 。 语 素 是 承载 意义 的 基本 


语言 单位 。 语 素 有 两 种 类 型 : 词根 和 词 级 (后 级 、 前 级 、 中 级 和 环 级 )。 











































































































词根 也 被 称 作 自由 语素 ， 因 为 它们 甚至 可 以 在 不 添加 词 级 的 情况 下 而 存在 。 词 级 被 称 


F AL 


作 粘 着 语素 ， 因 为 它们 不 能 以 自由 的 形式 而 存在 ， 总 是 与 自由 语素 共存 。 考 虑 单词 
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unbe] 


un 和 














折 语 Cinflecting languages). 
自由 语素 构成 并 且 它 们 不 具备 任何 时 态 〈 过 去 ， 现 在 和 
其 中 汉语 是 孤立 语 的 一 个 例子 。 在 粘着 语 





















































Lievable， 在 这 里 ，believe 是 词根 或 者 叫 自 由 语素 ， 它 可 以 独立 地 存在 。 语 素 
able 是 词 级 或 者 叫 粘着 语素 , 它们 不 能 以 自 


ME 
laa HJ 











昌 的 形式 而 存在 , 但 是 可 以 与 词根 共存 。 
分 为 三 类 ， 即 孤立 语 (isolating languages)、 粘 着 语 (agglutinative languages) 和 届 


























中 土耳其 语 是 粘着 语 的 一 个 例子 。 


























有 这 些 语 言 单位 表达 了 不 同 的 含义 ， 其 9 
FJL IRA 屈折 、 派生 、 ja] FE 





























式 ， 以 便 它 可 以 代表 人 称 、 数 、 时 态 、 放 
型 保持 不 变 。 在 派生 词 中 ， 单 词 的 句法 类 型 也 被 改变 了 。 半 计 


例如 quality, noteworthy. antisocial, anticlockwise 等 词 。 


3. 2 


为 例 ， 





的 准确 
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Port 








具有 相 











理解 词 干 提取 器 


司 干 提取 可 以 被 定义 为 一 个 通过 


词 干 提取 器 通过 从 raining 





多 态 学 在 这 些 语言 中 有 着 不 同 的 含义 。 在 孤立 语 中 , 单词 仅 
将 来 ) 和 数 〈 单 数 或 复数 ) 的 信息 ， 
PF， 是 将 短 词 结合 在 一 起 以 传达 复合 的 信息 ， 其 
在 屈折 语 中 ， 单 词 被 分 解 成 更 简单 的 i 




















在 言 单位 ， 但 是 所 

































































屈折 语 的 一 个 例子 。 
组 合 形式 和 复 缀 化 。 届 折 意 味 着 将 单词 转换 为 某 种 形 
和 语气 ， 这 里 ， 单 词 的 句法 类 


区 态 学 过 程 包 括 以 



























































以 获取 词 干 的 过 程 











E 现 单词 的 粘着 语素 ， 
































词根 或 词 干 rain。 为 了 




















性 ， 搜 索引 擎 大 多 会 使 用 词 




















干 提取 来 获取 词 干 并 将 

















同 含义 的 同义词 ， 这 可 能 是 一 
计 了 一 个 广为人知 的 被 称 作 Porter 的 i 
词 中 的 一 些 众所周知 的 后 级 。 












































以 单词 raining 
提高 信息 检索 
存储 为 索引 词 。 搜 索引 擎 使 用 
被 称 为 异 文 合 并 的 查询 扩展 。Martin Porter 已 经 设 
算法 基本 上 用 于 替换 和 消除 英文 单 
为 了 在 NLTK 中 执行 词 干 提取 ， 我 们 可 以 简单 地 对 


























rStemmer 类 进行 实例 化 ， 然 后 通过 调用 stem 方法 来 进行 词 干 提取 。 











让 我 们 来 看 看 有 关 在 NLTK 中 使 用 PorterStemmer 类 进行 词 干 提取 的 代码 : 














>>> import nltk 


>>> from nltk.stem import PorterStemmer 
>>> stemmerporter = PorterStemmer () 
>>> stemmerporter.stem('working') 











'work' 


>>> st 





'happi' 


PorterStemmer 类 被 训练 并 已 经 掌握 了 英文 的 许多 词 干 和 单 i 
系列 的 步 又， 并 最 终 将 襄 


O Se = 
时 需要 


mmerporter.stem('happiness') 
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式 。 词 干 提取 的 过 
hE 词 变换 成 较 短 的 单词 或 与 词根 具有 相似 含义 的 单词 。 
Stemmer [接口 定义 了 stem O 方法 ， 所 有 的 词 干 提取 器 类 都 继承 自 





Stemmer I 接口。 继承 


3.2 


ut 
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关系 如 图 3-1 所 示 。 


Stemmer I 


PorterStemmer LancasterStemmer SnowballStemmer 





图 3-1 





另 一 种 被 称 作 Lancaster 的 词 干 提取 算法 是 由 兰 卡 斯 特大 学 (Lancaster University) 提 
出 的 .类似 于 PorterStemmer 2$, LancasterStemmer 类 在 NLTK 中 用 于 实现 Lancaster 
词 干 提取 算法 。 人 然而， 两 种 算法 之 间 的 主要 区 别 之 一 是 Lancaster 词 干 提取 算法 比 Porter 词 
干 提取 算法 涉及 更 多 不 同情 感 词 的 使 用 。 


让 我 们 考虑 如 下 用 于 描述 在 NLTK 中 执行 Lancaster 词 干 提取 的 代码 : 









































>>> import nltk 

>>> from nltk.stem import LancasterStemmer 
>>> stemmerlan=LancasterStemmer () 

>>> stemmerlan.stem('working') 

'work' 

>>> stemmerlan.stem('happiness') 

'happy' 


在 NLTK 中 , 我 们 通过 使 用 RegexpStemmer 类 也 可 以 构建 属于 我 们 自己 的 词 干 提取 
器 。 它 的 工作 原理 是 通过 接收 一 个 字符 串 ， 并 在 找到 其 匹配 的 单词 时 删除 该 单词 的 前 级 或 
IET 


让 我 们 考虑 一 个 在 NLTK 中 使 用 RegexpStemmer 进行 词 干 提取 的 例子 : 





























>>> import nltk 
>>> from nltk.stem import RegexpStemmer 
>>> stemmerregexp=RegexpStemmer ('ing') 








>>> stemmerregexp.stem('working') 
'work' 





>>> stemmerregexp.stem('happiness') 
'happiness' 





>>> stemmerregexp.stem('pairing') 
'pair' 
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我 们 可 以 在 无 法 使 用 PorterStemmer 和 LancasterStemmer 进行 词 干 提取 的 情况 
下 使 用 RegexpStemmer. 
SnowballStemmer 用 于 对 除 英 文 之 外 的 其 他 13 种 语言 进行 词 干 提 取 。 为 了 使 用 
SnowballStemmer 执行 词 干 提取 ， 首 先 ， 为 需要 执行 词 干 提取 的 语言 创建 一 个 实例 ， 然 
后 调用 其 stem () 方 法， 就 完成 了 词 干 提取 。 
考虑 如 下 NLTK 中 的 代码 示例 , 它 使 用 SnowoallStemmer 对 西班牙 语 和 法 语 执行 了 
词 干 提取 : 













































































>>> import nltk 

>>> from nltk.stem import SnowballStemmer 

>>> SnowballStemmer.languages 

('danish', 'dutch', 'english', 'finnish', 'french', 'german', 
'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 
'romanian', 'russian', 'spanish', 'swedish') 

>>> spanishstemmer-SnowballStemmer('spanish') 

>>> spanishstemmer.stem('comiendo') 

'com' 

>>> frenchstemmer-SnowballStemmer('french') 

>>> frenchstemmer.stem('manger') 





'mang' 
nltk.stem.api 由 可 以 在 其 中 执行 stem 函数 的 StemmerI 类 组 成 。 


考虑 如 下 NLTK 中 的 代码 ， 它 能 够 让 我 们 执行 词 干 提取 : 





class StemmerI (object): 

"nw 

It is an interface that helps to eliminate morphological affixes from 
the tokens and the process is known as stemming. 


"mnm 


def stem(self, token): 


"mnm 





Eliminate affixes from token and stem is returned. 


"nnm 





raise NotImplementedError () 


让 我 们 来 看 看 使 用 多 个 词 干 提取 器 进行 词 干 提取 的 代码 : 
































>>> import nltk 
>>> from nltk.stem.porter import PorterStemmer 





>>> from nltk.stem.lancaster import LancasterStemmer 


3.3 理解 词 形 还 原 


>>> from nltk.stem import SnowballStemmer 
>>> def obtain tokens(): 

With open('/home/p/NLTK/samplel.txt') as stem: tok = nltk.word 
tokenize(stem.read()) 


return tokens 
>>> def stemming(filtered): 
stem-[] 


for x in filtered: 





stem.append (PorterStemmer () .stem(x) ) 


return s 


>>> 


cem 


if name --" main ": 





tok- obtain tokens () 


>>> 
>>> 
>>> 
>>> 
>>> 


print 


("tokens is $s")$(tok) 





stem tokens- stemming (tok) 


print 


("After stemming is $s")$stem tokens 


res-dict(zip(tok,stem tokens)) 





print 


("(tok:stemmed)-2s")£(result) 


3.3 理解 词 形 还 原 








词 形 还 原 是 一 | 
































性 类 别 。 


FRE WordNet 中 找 不 至 























考虑 一 个 在 NLTK 中 执行 词 形 还 原 的 例子 : 


t nltk 


from nltk.stem import WordNetLemmatizer 


>>> impor 
>>> 

>>> lemma 
>>> lemma 
'working' 
>>> lemma 
'work' 
>>> lemma 
'work' 








tizer output-WordNetLemmatizer () 


tizer output.lemmatize ('working') 


tizer output.lemmatize('working',pos-'v') 





tizer output.lemmatize('works') 
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不 同 的 词类 将 一 个 单词 转换 为 某 种 形式 的 过 程 。 词 形 还 原 后 的 单词 
E 式 是 完全 不 同 的 。 WordNetLemmatizer 类 中 内 建 的 morphy O 函数 用 于 词 形 还 原 。 如 
| 输入 的 单词 ， 则 其 保持 不 变 。 参 数 中 ，pos 所 指 的 是 输入 单词 的 词 


WordNetLemmatizer 库 可 以 认为 是 对 所 谓 的 WordNet 语料库 进行 的 封装 ， 它 使 用 


WordNetCorpusR 


























单词 只 返回 其 原始 形式 。 例 如 ， 对 于 works， 返 回 的 词根 是 其 单数 形式 wor 





eader 中 的 morphy () 函数 来 提取 词根 。 如 果 没 有 词根 可 提取 ， 导 








Ko 





BA 
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让 我 们 考虑 下 面 的 代码 ， 这 段 代码 展示 了 词 干 提取 和 词 形 还 原 之 间 的 区 别 : 


>>> import nltk 

>>> from nltk.stem import PorterStemmer 

>>> stemmer output=PorterStemmer () 

>>> stemmer output.stem('happiness') 
'happi' 

>>> from nltk.stem import WordNetLemmatizer 
>>> lemmatizer output=WordNetLemmatizer () 


>>> lemmatizer output.lemmatize ('happiness') 





'happiness' 
































fr LM ARASH, happiness 通过 词 干 提取 转化 为 happi， 词 形 还 原 没 有 找到 
happiness 的 词根 ， 因 此 它 返回 了 happiness。 

















3.4 为 非 英 文 语言 开发 词 干 提取 器 























Polyglot 是 一 个 用 于 提供 被 称 作 morfessor 模型 的 软件 ， 该 模型 用 于 从 标识 符 中 获取 语 
素 。Morpho 项 目的 目标 是 创建 无 监督 的 数据 驱动 流程 ， 其 主要 目的 就 是 专注 于 语素 (语法 
的 最 小 单位 ) 的 创建 。 语 素 在 自然 语言 处 理 中 扮演 着 重要 角色 ， 其 在 自动 识别 和 语言 的 4 
成 中 是 非常 有 用 的 。 在 Polyglot 的 词汇 词典 的 帮助 下 ， 已 经 使 用 了 涉及 不 同 语言 的 50000 


个 标识 符 的 morfessor 模型 。 


让 我 们 来 看 看 使 用 polyglot 获取 语言 表格 的 代码 : 






































H 



























































HT 
























































from polyglot.downloader import downloader 
print (downloader.supported languages table ("morph2")) 

















由 以 上 代码 得 到 的 输出 就 是 这 里 列 出 的 语言 : 











1. Piedmontese language 2. Lombard language 3. Gan Chinese 

4. Sicilian 5. Scots 6. Kirghiz, Kyrgyz 
7. Pashto, Pushto 8. Kurdish 9. Portuguese 

10. Kannada 11. Korean 12. Khmer 

13. Kazakh 14. Ilokano 15. Polish 

16. Panjabi, Punjabi 17. Georgian 18. Chuvash 

19. Alemannic 20. Czech 21. Welsh 

22. Chechen 23. Catalan; Valencian 24. Northern Sami 
25. Sanskrit (Sa?sk?ta) 26. Slovene 27. Javanese 








3.4 
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28. 
31. 
34. 
345 
40. 
43. 
46. 
49. 
52. 
55. 
58. 
61 
64. 
67. 
70. 
73. 
76. 
79. 
82. 
85. 
88. 
9]. 
94. 
97. 


2 


= 





00. 
03. 
06. 
09. 
12. 
15. 
18. 


24. 
27. 
30. 
33. 


Slovak 
Swedish 
Serbian 
Western Frisian 
Upper Sorbian 
Sinhala, Sinhalese 
Aragonese 
Sakha 
Interlingua 
Arabic 

Yiddish 


. Hungarian 


Armenian 

Hindi 

Danish 

Turkmen 

Greek, Modern 
Oriya 

Turkish 

Manx 

Irish 

Cebuano 

Dutch 

West Flemish 
Breton 

Bashkir 

Bengali 

Marathi (Mara?hi) 
Russian 
Mongolian 
Spanish; Castilian 
. Bishnupriya Manipuri 
Esperanto 
Uighur, Uyghur 
Latvian 


Fiji Hindi 


2 


32! 
35. 
38. 


4 


= 


44. 
47. 
50. 
53. 
56. 
59. 
62. 
65. 
68. 


7 
74 


10 


104. 


10 
11 
11 
11 
11 
12 
12 
12 
13 


134. 


9. Bosnian-Croatian-Serbian 
Swahili 

Albanian 

French 

. Faroese 

Italian 

Volapük 

Afrikaans 

Azerbaijani 

Assamese 
Waray-Waray 

Haitian; Haitian Creole 
Hebrew (modern) 
Divehi; Dhivehi; Mald... 
1. Occitan 

. Thai 

. Telugu 

. Ossetian, Ossetic 

. Kapampangan 

. Gujarati 

. Scottish Gaelic; Gaelic 
. Zazaki 

. Norwegian 

. Chinese 

1. Belarusian 

Egyptian Arabic 

7. Burmese 

0. Malay 

3. Macedonian 

6. Malagasy 

9. Estonian 

2. Asturian 

5. Luxembourgish, Letzeb... 
8. Ukrainian 

1. Urdu 

Uzbek 


30. 
33: 
36. 
39. 
42. 
45. 
48. 
5]. 
54. 
SI: 
60. 
63. 
66. 
69. 
72. 
1D: 
78. 
81. 
84. 
87. 
90. 
93. 
96. 
99. 


102. 
105. 
108. 
111. 
114. 
117. 
120. 
123. 
126. 
129. 
132. 
135. 


Bavarian 
Sundanese 
Japanese 
Finnish 
Persian 
Amharic 
Icelandic 
Indonesian 
Ido 

Yoruba 
Croatian 
Quechua 
Silesian 
German 
Tagalog 
Tajik 

Tamil 

Tatar 
Venetian 
Galician 
Nepali 
Walloon 
Norwegian Nynorsk 
Bosnian 
Bulgarian 
Tibetan Standard, Tib... 
Romansh 
Maltese 
Malayalam 
Vietnamese 
Basque 
English 
Latin 
Limburgish, Limburgan... 


Lithuanian 





Romanian, Moldavian, ... 
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EE 





可 使 用 以 下 代码 下 载 必要 的 模型 


$$bash 


polyglot download morph2.en morph2.ar 


[polyglot data] 
[polyglot data] 
[polyglot data] 
[polyglot data] 
[polyglot data] 
[polyglot data] 


考虑 





一 个 可 用 于 从 polyglot 4 


Downloading package morph2.en to 
yglot_data... 
Package morph2.en is already up-to-date! 


/home/rmyeid/pol o 


Downloading package morph2.ar to 
yglot data... 
Package morph2.ar is already up-to-date! 


f 





/home/rmyeid/pol o 








[T 
Ly 





Pb 获取 输出 的 示例 : 


Word 
,"precooked", 


from polyglot.text import Text, 
tokens =["unconditional" "impossible", 
"entered" ] 


for s in tokens: 







































































"painful", 









































s=Word(s, language="en") 

print ("{:<20}{}".format (s,s.morphemes) ) 

unconditional ['un', 'conditional'] 

precooked['pre', 'cook', 'ed'] 

impossible['im','possible'] 

painful['pain','ful'] 

ntered['enter','ed'] 

如 果 没 有 正确 地 执行 切 分 ， 那 么 我 们 就 可 以 对 将 文本 分 割 成 原始 成 分 的 过 程 进行 形态 
学 分 析 : 

sent="Ihopeyoufindthebookinteresting" 

para=Text (sent) 

para.language-"en" 

para.morphemes 

WordList(['I', 'hope', 'you', 'find', 'the', 'book', 'interesting']) 

^, 

3.5 形态 分 析 器 

在 给 定 标 识 符 后 缀 信息 的 前 提 下 ， 形 态 分 析 可 以 认为 是 一 个 从 标识 符 中 获取 语法 信息 
的 过 程 。 可 以 通过 以 下 三 种 方式 来 执行 形态 分 析 ， 基于 语素 的 形态 学 或 一 个 项 目 和 排列 
方法 )， 基 于 词 位 的 形态 学 (或 一 个 项 目 和 过 程 方法 ) 和 基于 单词 的 形态 学 (或 一 个 单词 和 
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范式 方法 )。 形 态 分 析 器 可 以 认为 是 一 个 程序 ， 该 程序 负责 对 给 定 的 输入 标识 符 进行 形态 学 


分 析 。 它 分 析 给 定 的 标识 符 并 生成 诸如 性 别 、 数 、 词 类 等 形态 信息 作为 输出 。 


为 了 对 一 个 给 定 的 没有 空格 的 标识 符 执行 形态 学 分 析 ， 需 要 使 用 pyEnchant 字典 。 






















































































让 我 们 考虑 下 面 用 于 执行 形态 学 分 析 的 代码 : 








>>> import enchant 
>>> S = enchant.Dict("en US") 


>>> tok=[ 


>>> def tokenize(stl): 


if 


not stlrreturm"m 


for j in xrange(len(stl),-1,-1): 


if 


s.check(st1[0:j3]): 


tok.append(st1[0:i]) 


stl 





-st[j: 


tokenize(st1) 


bre 
>>> 
>>> 

a 
>>> 
>>> 
>>> 


['i 


ak 
tokenize("itismyfavouritebook") 
tok 

t', ‘ist, 'my','favourite','book!] 


tok=[ ] 
tokenize("ihopeyoufindthebookinteresting") 





COK 





','hope', 'you', 'find', 'the', 'book', 'interesting'] 























我 们 可 以 借助 以 下 几 点 来 确定 词 的 类 别 : 











形态 提示 : 后 绥 信 息 有 助 于 我 们 检测 词 的 类 别 。 例 如 ，-ness 和 -ment 后 级 与 名 词 共 存 。 
语法 提示 : 上 下 文 信息 有 利于 确定 词 的 类 别 。 例 如 ， 如 果 我 们 已 经 找到 了 具有 名 词 
类 别 的 单词 ,那么 语法 提示 将 有 助 于 我 们 确定 是 否 有 形容 词 会 出 现在 名 词 之 前 或 者 
名 词 之 后 。 
语义 提示 : 语义 提示 对 于 确定 词 的 类 别 也 是 有 用 的 。 例如， 如 果 我 们 已 经 知道 一 个 
单词 代表 一 个 地 名 ， 那 么 它 将 归属 在 名 词类 别 下 。 

开放 类 : 这 是 一 个 单词 不 固定 的 类 别 ,无论 何 时 一 个 新 单词 被 添加 到 它们 的 列表 中 
时 ， 该 类 别 单词 的 数量 每 天 都 在 保持 增长 。 开 放 类 中 的 单词 通常 是 名 词 。 介 词 大 多 
都 在 一 个 封闭 类 别 中 。 例 如 ， 在 人 称 (Persons) 列表 中 可 以 有 无 限 数量 的 单词 ， 
所 以 它 是 一 个 开放 类 。 

由 词性 标记 集 获 取 的 形态 : 词性 标记 集 获 取 了 帮助 我 们 执行 形态 学 分 析 的 信息 。 例 
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如 ， 





3 


单词 plays 将 与 第 三 人 称 和 自 


Omorfi: Omorfi (Open morphology of Finnish) 是 














可 的 软件 包 。 它 可 








3.6 形态 生成 器 


于 执行 许多 
器 翻译 、 信 息 检 索 、 统 计 机 器 翻译 、 








数 名 词 一 起 出 现 。 











qp 




















已 经 被 GNU GPL 版 本 3 VE 


E 务 ,例如 语言 建 模 、 形 态 学 分 析 、 基 于 规则 的 机 


























态 分 割 、 本 体 模型 以 及 拼写 检查 和 校正 等 。 





形态 生成 器 是 执行 形态 生成 任务 的 程序 。 可 以 认为 形态 生成 是 与 形态 分 析 相 反 的 任务 。 























这 里 ， 如 果 给 出 单词 在 数 、 类 别 、 词 干 等 方面 的 描述 ， 就 可 以 检索 出 原始 的 单词 。 














如 果 词根 为 go, 词性 为 动词 ,时 态 为 现在 时 ,并 且 如 果 它 与 第 三 人 称 和 单数 3 








则 形态 生成 器 将 生成 其 表层 








2A 
2 


XX goes. 
































有 很 多 基于 Python 的 可 











于 执行 











成 和 分 析 。 











ParaMorfo: 用 于 执行 关于 西贡 











E 牙 语 和 瓜 拉 

















区 态 学 分 析 和 生成 的 软件 ， 其 中 一 些 如 下 : 

















HornMorpho: 


PT 








的 形态 学 生成 和 分 析 。 



































其 他 用 于 执行 形态 学 分 
































Morphy 是 








MorfoMelayu: 用 于 马 来 语 单词 的 形态 学 分 析 。 
析 和 生成 的 软件 示例 如 下 : 
Morph 是 用 于 RASP 系统 的 英语 的 形态 4 








成 器 和 分 析 器 。 























Morfette 用 于 执行 








3.7 搜索 引擎 

















PyStemmer 1.0.1 | 
组 成 。 它 | 




















Porter 词 干 提取 入 

















法 和 许多 


6 班 牙 语 和 法 语 的 监督 学 














尼 语 的 名 词 、 形 容 词 和 动词 的 形态 学 生 








E 成 器 和 分 析 器 。 
于 德语 的 形态 生成 器 、 分 析 器 和 词性 标注 器 。 


Morphisto 是 用 于 德语 的 形态 4 








可 用 于 执行 信息 检索 任务 和 构建 搜索 引擎 的 Snowball ii] TH 


习 《〈 届 折 形 态 学 )。 











提取 算法 








他 的 词 干 提取 多 














法 组 成 ， 这 些 词 干 提取 人 











例如 ， 








于 执行 关于 奥 罗 英语 和 阿 姆 哈 拉 语 的 名 词 和 动词 ， 以 及 提 格 里 尼 
语 的 动词 的 形态 学 生成 和 分 析 。 


AntiMorfo: 用 于 执行 关于 盖 丘 亚 语 的 形容 词 、 动 词 和 名 词 ， 以 及 西班牙 语 的 动词 





法 有 助 
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于 在 多 种 语言 (包括 许多 欧洲 语言 中 执行 词 干 提取 和 信息 检索 任务 。 
我 们 可 以 通过 将 文本 转换 为 向 量 来 构建 向 量 空间 搜索 引擎 。 
以 下 是 构建 一 个 向 量 空间 搜索 引 警 所 涉及 的 步骤。 


考虑 以 下 用 于 删除 停止 词 和 分 词 的 代码 : 词 干 提取 器 是 一 个 用 于 接收 单词 并 将 其 转 
化 为 词 干 的 程序 , 拥有 相同 词 干 的 标识 符 具 有 几乎 相同 的 含义 , 文本 中 的 停止 词 也 被 去 除了 。 




































































II 
























































def eliminatestopwords(self,list): 


"mnm 


Eliminate words which occur often and have not much significance 





from context point of view. 


"mnm 


return[ word for word in list if word not in self.stopwords ] 





def tokenize(self,string): 


"mnm 


Perform the task of splitting text into stop words and tokens 
noww 

Str-self.clean(str) 

Words-str.split("") 

return [self.stemmer.stem(word,0,len(word)-1) for word in words] 











2. 考虑 如 下 可 用 于 将 关键 词 映 射 到 向 量 维度 的 代码 : 





def obtainvectorkeywordindex(self, documentList): 


woe 


In the document vectors, generate the keyword for the given 





position of element 


"mnm 


#Perform mapping of text into strings 
vocabstring = "".join(documentList) 


vocablist = self.parser.tokenise(vocabstring) 





#Eliminate common words that have no search significance 
vocablist = self.parser.eliminatestopwords (vocablist) 
uniqueVocablist = util.removeDuplicates (vocablist) 


vectorIndex-í(] 
offset=0 
#Attach a position to keywords that performs mapping with 
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档 是 





dimension that is used to depict this token 
for word in uniqueVocablist: 

vectoriIndex [word] =offset 

offsett=1 


return vectorIndex #(keyword:position) 


3. 这 里 使 用 了 一 个 简单 的 术语 计数 模型 。 考 虑 下 面 将 文本 字符 串 转换 为 向 量 的 代码: 











def constructVector(self, wordString): 


# Initialise the vector with 0's 
Vector val = [0] * len(self.vectorKeywordIndex) 





tokList = self.parser.tokenize(tokString) 





tokList = self.parser.eliminatestopwords (tokList) 
for word in toklist: 
vector[self.vectorKeywordIndex[word]] += 1; 





# simple Term Count Model is used 


return vector 











4. 通过 找到 文档 的 向 量 之 间 的 角度 的 余弦 来 搜索 相似 文档 ， 我 们 可 以 证 明 两 个 给 定 的 文 
否 相 似 。 如 果 余 弦 值 为 1， 那么 角度 值 为 0 度 ， 并 且 向 量 被 认为 是 平行 的 (这 意味 着 文档 









































z 





被 认为 是 相关 的 )。 如 果 余 弦 值 为 0 并 且 角 度 的 值 为 90 度 ， 那 么 向 量 被 认为 是 垂直 的 〈 这 意味 
































着 文档 被 认为 是 不 相关 的 )。 让 我 们 看 看 使 用 SciPy 来 计算 文本 向 量 之 间 余 弦 的 代码 : 














def cosine(vecl, vec2): 


"mmm 


cosine = (X Y / |IXII x IIYII 


"mnm 


return float(dot(vecl,vec2) / (norm(vecl) * norm(vec2))) 














5. 执行 关键 词 到 向 量 空间 的 映射 。 我 们 首先 构建 了 一 个 表示 搜索 项 的 临时 文本 ,然后 




















在 余弦 测量 的 帮助 下 将 其 与 文档 向 量 进行 比较 。 让 我 们 看 看 下 面 用 于 搜索 向 量 空间 的 代码 : 


all 























def searching(self,searchinglist): 
""" Search for text that are matched on the basis oflist of 
items now 


askVector = self.buildQueryVector (searchinglist) 


ratings = [util.cosine(askVector, textVector) for textVector in 
self.documentVectors] 
ratings.sort(reverse-True) 


return ratings 
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6. 现在 让 我 们 考虑 如 下 可 用 于 对 源 文本 进行 语言 检测 的 代码 : 


>>> import nltk 











>>> import sys 

>>> try: 

from nltk import wordpunct tokenize 
from nltk.corpus import stopwords 





except ImportError: 





print( 'Error has occured!) 


>>> def calculate languages ratios (text): 


"mnm 


Compute probability of given document that can be written in 
different languages and give a dictionary that appears like 


('german': 2, 'french': 4, 'english': 1} 

now 

languages ratios = {} 

Urt 

nltk.wordpunct tokenize() splits all punctuations into separate 
tokens 


wordpunct tokenize("I hope you like the book interesting .") 
[' I',' hope ','you ','like ','the ','book' ,'interesting ','.'] 


ct 

O 

x 
ll 


wordpunct_tokenize (text) 


= 

O 

R 
| 


[word.lower() for word in tok] 


# Compute occurence of unique stopwords in a text 
for language in stopwords.fileids(): 
stopwords set = set(stopwords.words (language) ) 
words set = set (words) 
common elements = words set.intersection(stopwords set) 
languages ratios[language] - len(common elements) 
f language "score" 
return languages ratios 


>>> def detect language (text): 


"mnm 
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Compute the probability of given text that is written in different 
languages and obtain the one that is highest scored. It makes 

use of stopwords calculation approach, finds out unique stopwords 
present in a analyzed text. 

"nn 

ratios = calculate languages ratios (text) 

most rated language - max(ratios, key-ratios.get) 

return most rated language 


if name ==' main ': 





text = ''' 


All over this cosmos, most of the people believe that there is 





an invisible supreme power that is the creator and the runner of 





this world. Human being is supposed to be the most intelligent and 
loved creation by that power and that is being searched by human 
beings in different ways into different things. As a result people 
reveal His assumed form as per their own perceptions and beliefs. 
It has given birth to different religions and people are divided 





on the name of religion viz. Hindu, Muslim, Sikhs, Christian etc. 
People do not stop at this. They debate the superiority of one 





over the other and fight to establish their views. Shrewd people 
like politicians oppose and support them at their own convenience 
to divide them and control them. It has intensified to the extent 
that even parents of a 
new born baby teach it about religious differences and recommend 








their own religion superior to that of others and let the child 
learn to hate other people just because of religion. Jonathan 








Swift, an eighteenth century novelist, observes that we have just 
enough religion to make us hate, but not enough to make us love 
one another. 

The word 'religion' does not have a derogatory meaning - A literal 
meaning of religion is 'A 

personal or institutionalized system grounded in belief in a God 
or Gods and the activities connected 

with this'. At its basic level, 'religion is just a set of 
teachings that tells people how to lead a good 

life'. It has never been the purpose of religion to divide people 
into groups of isolated followers that 





cannot live in harmony together. No religion claims to teach 


intolerance or even instructs its believers to segregate a 
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certain religious group or even take the fundamental rights of 

an individual solely based on their religious choices. It is also 
said that 'Majhab nhi sikhata aaps mai bair krna'.But this very 
majhab or religion takes a very heinous form when it is misused 
by the shrewd politicians and the fanatics e.g. in Ayodhya on 6th 
December, 1992 some right wing political parties 

and communal organizations incited the Hindus to demolish the 16th 





century Babri Masjid in the 

name of religion to polarize Hindus votes. Muslim fanatics in 
Bangladesh retaliated and destroyed a 

number of temples, assassinated innocent Hindus and raped Hindu 
girls who had nothing to do with 

the demolition of Babri Masjid. This very inhuman act has been 
presented by Taslima Nasrin, a Bangladeshi Doctor-cum-Writer 

in her controversial novel 'Lajja' (1993) in which, she seems 
to utilizes fiction's mass emotional appeal, rather than its 
potential for nuance and universality. 


>>> language = detect language (text) 


>>> print (language) 











以 上 代码 将 搜索 停止 词 并 检测 文本 的 语言 类 型 
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p 




















计算 语言 学 领域 有 许多 的 应 用 。 为 了 实现 或 构建 一 个 应 用 程序 ， 我 们 需要 对 我 们 的 原 
台 文 本 进行 预 处 理 。 在 本 章 中 ， 我 们 已 经 讨论 了 词 干 提取 、 词 形 还 原 、 形 态 分 析 和 生成 以 
及 它们 在 NLTK 中 的 实现 。 我 们 还 讨论 了 各 种 搜索 引擎 以 及 它们 的 实现 。 


在 下 一 章 中 ， 我 们 将 讨论 词性 、 标 记 和 语 块 。 








也 
































第 4 章 
词性 标注 : 单词 识别 





词性 CParts-of-speech, POS) 标注 是 NLP 中 的 众多 任务 之 一 。 它 被 定义 为 将 特定 的 词 
性 标记 分 配给 句 中 每 个 单词 的 过 程 。 词 性 标记 可 以 识别 一 个 单词 是 否 为 名 词 、 动 词 还 是 形容 
词 等 等 。 词 性 标注 有 着 广泛 的 应 用 ， 例 如 信息 检索 、 机 器 翻译 、NER、 语 言 分析 等 。 
























































语言 分 
本 章 将 包含 以 下 主题 : 
。 创建 词性 标注 语料库 。 














。 选择 一 种 机 器 学 习 算 法 。 
。 涉及 n-gram 的 统计 建 模 。 
。 使 用 词性 标注 数据 开发 分 块 器 。 











4.1 词性 标注 简介 














词性 标注 是 一 个 对 句 中 的 每 个 标识 符 分 配 词类 (例如 名 词 、 动 词 、 形 容 词 等 ) 标记 的 
程 。 在 NLTK 中 ， 词 性 标注 器 存在 于 nltk.tag 包 中 并 被 TaggerIbase 类 所 继承 。 


考虑 一 个 NLTK 中 的 例子 ， 它 为 指定 的 句子 执行 词性 标注 : 





z 





























>>> import nltk 

>>> textl-nltk.word tokenize("It is a pleasant day today") 
>>> nltk.pos tag(textl) 

[C It', 'PRP'), ('is', 'VBZ'), ('a', 'DT'), ('pleasant', 'JJ'), 
('day', 'NN'), ('today', 'NN')] 


我 们 可 以 在 TaggerI 的 所 有 子 类 中 实现 tag 0 I. 为 了 评估 标注 器 ,TaggerI 提 
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供 了 evaluate() 方 法 。 标注 器 的 组 合 可 用 于 形成 回 退 链 ， 如 果 其 中 一 个 标注 器 无 法 完成 
词性 标注 时 ， 则 可 以 使 用 下 一 个 标注 器 进行 词性 标注 。 


让 我 们 看 看 由 Penn Treebank 提供 的 那些 可 用 的 标记 列表 (https://www.ling. 
upenn.edu/courses/Fall 2003/ling001/penn_ treebank pos.html): 


















































CC - Coordinating conjunction 
CD - Cardinal number 


DT - Determiner 








EX - Existential there 





FW - Foreign word 





IN - Preposition or subordinating conjunction 
JJ - Adjective 
JR - Adjective, comparative 





JJS - Adjective, superlativ 
LS - List item marker 
D - Modal 


NN - Noun, singular or mass 
NNS - Noun, plural 
NNP - Proper noun, singular 








NNPS - Proper noun, plural 








PDT - Predeterminer 

POS - Possessive ending 

PRP - Personal pronoun 

PRPS - Possessive pronoun (prolog version PRP-S) 


RB - Adverb 

RBR - Adverb, comparative 

RBS - Adverb, superlative 

RP - Particle 

SYM - Symbol 

TO «— to 

UH - Interjection 

VB - Verb, base form 

VBD - Verb, past tense 

VBG - Verb, gerund or present participle 
VBN - Verb, past participle 

VBP - Verb, non-3rd person singular present 
VBZ - Verb, 3rd person singular present 

WDT - Wh-determiner 

WP - Wh-pronoun 

WPS - Possessive wh-pronoun (prolog version WP-S) 
WRB - Wh-adverb 
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NLTK 可 以 提供 以 上 标记 的 信息 。 考 虑 以 下 提供 了 NNS 标记 信息 的 代码 : 


>>> nltk.help.upenn tagset('NNS') 
NNS: noun, common, plural 

undergraduates scotches bric-a-brac products bodyguards facets 
coasts 








divestitures storehouses designs clubs fragrances averages 
subjectivists apprehensions muses factory-jobs 











证 我 们 来 看 另外 一 个 例子 ， 可 以 在 该 例 中 查询 一 个 正则 表达 式 : 

















>>> nltk.help.upenn tagset('VB.*') 
VB: verb, base form 

ask assemble assess assign assume atone attention avoid bake 
balkanize 

bank begin behold believe bend benefit bevel beware bless boil 
bomb 

boost brace break bring broil brush build 








VBD: verb, past tense 
dipped pleaded swiped regummed soaked tidied convened halted 
registered 








cushioned exacted snubbed strode aimed adopted belied figgered 





Speculated wore appreciated contemplated 





VBG: verb, present participle or gerund 
telegraphing stirring focusing angering judging stalling lactating 
hankerin' alleging veering capping approaching traveling besieging 


encrypting interrupting erasing wincing 





VBN: verb, past participle 
multihulled dilapidated aerosolized chaired languished panelized 
used 
experimented flourished imitated reunifed factored condensed sheared 
unsettled primed dubbed desired 
VBP: verb, present tense, not 3rd person singular 











predominate wrap resort sue twist spill cure lengthen brush 
terminate 


appear tend stray glisten obtain comprise detest tease attract 





emphasize mold postpone sever return wag 





VBZ: verb, present tense, 3rd person singular 
bases reconstructs marks mixes displeases seals carps weaves 
snatches 





slumps stretches authorizes smolders pictures emerges stockpiles 








seduces fizzes uses bolsters slaps speaks pleads ...R 


4l 词性 标注 简介 65 





以 上 代码 给 出 了 关于 动词 短语 的 所 有 标记 信息 。 
让 我 们 来 看 一 个 例子 ， 它 描述 了 通过 词性 标注 来 实现 词义 消 卜 : 


















































>>> impor 


t nltk 


>>> text-nltk.word tokenize("I cannot bear the pain of bear") 


>>> nltk. 


"DT (* 


pos tag(text) 


('I', 'PRP'), ('can', 'MD'), ('not', 'RB'), ('bear', 'VB'), ('the', 





pain', 'NN'), ('of', 'IN'), ('bear', 'NN')] 






































在 上 面 的 句子 中 ， 这 里 的 bear 是 一 个 动词 ， 意 思 是 容忍 ， 同 时 bear 也 是 一 种 动物 ， 











这 意味 着 它 是 一 个 名 词 。 


EF 




















Æ NLTK 中 ， 己 标注 的 标识 符 呈现 为 一 个 由 标识 符 及 其 标记 组 成 的 元 组 。 在 NLTK 中 








我 们 可 以 使 用 函数 str2tuple () 来 创建 这 个 元 组 : 





>>> import nltk 
>>> taggedword=nltk.tag.str2tuple('bear/NN') 
>>> taggedword 


('bear', 


'NN!) 


>>> taggedword[0] 


'bear' 


>>> taggedword[1] 


!'NN' 








让 我 们 考虑 一 个 能 够 用 给 定 的 文本 生成 元 组 序列 的 例子 : 


>>> import nltk 





>>> sentence-'''The/DT sacred/VBN Ganga/NNP flows/VBZ in/IN this/DT 


region/NN 


./. This/DT is/VBZ a/DT pilgrimage/NN ./. People/NNP from/IN 





all/DT over/IN the/DT country/NN visit/NN this/DT place/NN ./. ''' 


>>> [nltk.tag.str2tuple(t) for t in sentence.split()] 

{[('The', 'DT'), ('sacred', 'VBN'), ('Ganga', 'NNP'), ('flows', 'VBZ'), 
InN- FIN), Fehrs” DT); (*region", "NN'y. (rt SuTY, Cerne; 
DE) VCS e 'VBAUS, «tat; *DTt), (Ce pilgrimage) “NNS iy. (Top tut 
('People', 'NNP'), ('from', 'IN'), ('all', 'DT'), ('over', 'IN'), 
(thet; "DI'y;.(*counbry', INN J ('vrstut', NNT (C5tbrst, DI), 


('place', 








ENN r Sy 





现在 考虑 如 下 将 元 组 《单词 及 其 词性 标记 ) 转换 为 一 个 单词 和 一 个 标记 的 代码 : 





>>> import nltk 
>>> taggedtok = ('bear', 'NN') 
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>>> from nltk.tag.util import tuple2str 
>>> tuple2str (taggedtok) 


'bear/NN' 





让 我 们 来 看 














>>> 
>>> 
>>> 
>>> 
>>> 
[ ('NOUN', 
('DET', 
3219), 





8725), 
('ADV', 


import nltk 


treebank tagged - 
tag = nltk.FreqDist(tag for 
tag.most common() 
('VERB', 
6613), 


28867), 
CX', 
3TTLYy, 








看 Treebank 语料库 中 一 些 常用 标记 的 出 现 频率 : 


from nltk.corpus import treebank 


treebank.tagged words (tagset='universal') 


(word, tag) in treebank tagged) 
13564), ('.', 11715), ('ADP', 
('ADJ', 6397), ('NUM', 3546), 


2737), ('CONJ', 2265)] 


9857), 
('PRT', 
('PRON', 





考虑 如 下 代码 ， 它 计算 了 出 现在 一 个 名 词 标记 之 前 的 标记 数量 : 





>>> import nltk 

>>> from nltk.corpus import treebank 

>>> treebank tagged = treebank.tagged words (tagset-'universal') 

>>> tagpairs = nltk.bigrams (treebank tagged) 

>>> preceders noun = [x[1] for (x, y) in tagpairs if y[1] == 'NOUN'] 

>>> freqdist = nltk.FreqDist(preceders noun) 

>>> [tag for (tag, _) in freqdist.most_common () ] 

['NOUN', 'DET', 'ADJ', 'ADP', '.', 'VERB', 'NUM' UPRT', 'CONJ', 

"PRON', "X', "'ADV'] 

我 们 也 可 以 通过 使 用 Python 中 的 字典 为 标识 符 提 供 词性 标记 。 让 我 们 看 看 下 面 的 代码 ， 















































这 段 代 码 展示 了 使 用 Python 中 的 字典 来 创建 一 个 元 组 (单词 : 词性 标记 ): 





>>> import nltk 

>>> tag={} 

>>> tag 

B 

>>> tag['beautiful']='ADJ' 
>>> tag 

('beautiful': 'ADJ'} 

>>> tag['boy']='N' 

>>> tag['read']='V' 

>>> tag['generously']='ADV' 
>>> tag 

{'boy': 'N', 'beautiful': 'ADJ', 


'generously': 


'ADV', 


'read': 


ty! } 
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411 默认 标注 


默认 标注 是 一 种 为 所 有 标识 符 分 配 相同 词性 标记 的 标注 , SequentialBackoffTagger 
ZN FARA DefaultTagger.SequentialBackoffTagger 类 必须 实现 choose tag() 
方法 ， 该 方法 包含 以 下 参数 : 

e 标识 符 集 。 

e 需要 被 标注 的 标识 符 索 引 。 

。 先前 的 标记 列表 。 

标注 器 的 层次 结构 如 图 4-1 所 示 : 



























































4-1 
现在 让 我 们 来 看 看 下 面 的 代码 ， 它 展示 了 DefaultTagger 类 的 工作 原理 : 


>>> import nltk 

>>> from nltk.tag import DefaultTagger 
>>> tag = DefaultTagger('NN') 

>>> tag.tag(['Beautiful', 'morning']) 
[('Beautiful', 'NN'), ('morning', 'NN')] 


我 们 可 以 借助 nltk.tag.untag O 函数 将 已 标注 的 句子 转换 为 未 标注 的 句子 。 调 用 
nltk.tag.untag() 函数 后 ， 每 个 标识 符 上 的 标记 将 会 被 删除 。 














让 我 们 来 看 看 用 于 取消 句子 标注 的 代码 : 
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>>> from nltk.tag import untag 


>>> untag([('beautiful', 


['beautiful', 'morning'] 


4.2 创建 词性 标注 





j& 


ELE 








一 个 语料库 可 以 认为 是 文档 的 集合 。 
让 我 们 来 看 看 下 面 的 代码 ， 它 将 在 主 目录 里 生成 一 个 数据 目 














>>> import nltk 
>>> import os,os.path 




















>>> create = os.path.expanduser ('~/nltkdoc') 





>>> if not os.path.exists (create): 


os.mkdir (create) 


>>> os.path.exists(create) 


True 
>>> import nltk.data 





True 




















这 段 代码 将 在 主 目录 中 创建 


>>> create in nltk.data.path 


个 语料库 ( 集 ) 是 多 个 语料库 从 





'NN'), ('morning', 'NN')]) 


2 
A 
DP 

















录 : 





一 个 叫 作 ~~/nltkdoc 的 数据 目录 。 代 码 的 最 后 一 行将 返 





回 True， 这 将 确保 数据 目录 已 创建 。 如 果 代 码 的 最 后 一 行 返 回 False， 则 意味 着 数据 目 























录 尚 未 被 创建 ， 我 们 需要 手动 创建 
代码 ， 然 后 它 将 返回 True。 在 这 
目录 ， 它 将 包含 全 部 的 语料库 。 出 











它 。 手 动 创建 数据 目录 后 ， 
目录 中 ， 我 们 可 以 创建 另 一 个 叫 作 nltkcorpora 的 


个 









































我 们 可 以 测试 一 下 最 后 一 行 








时 路 径 将 是 ~ 一 /nltkdoc/nltkcorpora。 我 们 也 可 以 


创建 一 个 叫 作 important 的 子 目录 ， 它 将 包含 所 有 必要 的 文件 。 





最 后 路 径 将 是 ~/nltkdoc/nltkcorpora/important。 




















让 我 们 来 看 看 下 面 用 于 加 载 子 目录 中 一 个 文本 文件 的 代码 : 














>>> import nltk.data 





>>> nltk.data.load('nltkcorpora/important/firstdoc.txt',format='raw') 


'nltk\n' 


以 上 代码 中 ， 我 们 在 这 里 














j 


Ex) format ='raw', 








函数 无 法 解释 .txt 文件 。 





因为 nltk.data.load() 
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NLTK 中 有 一 个 单词 列表 语料库 叫 作 Names 语料库 。 它 由 两 个 文件 组 成 ， 分 别称 为 
male.txt 和 female.txt。 


让 我 们 来 看 看 分 别 用 于 生成 male.txt 和 female.txt 文件 长 度 的 代码 : 



































>>> import nltk 
>>> from nltk.corpus import names 
>>> names.fileids () 

['female.txt', 'male.txt'] 

>>> len(names.words('male.txt')) 
2943 

>>> len(names.words('female.txt')) 
5001 


NLTK ERHI- ARWR EWER. LETULDIEECR TH T OI EC CE AY 
单词 数量 的 代码 : 

>>> import nltk 

>>> from nltk.corpus import words 


>>> words.fileids() 


['en', 'en-basic'] 
































>>> len(words.words('en')) 
235886 

>>> len(words.words('en-basic')) 
850 


考虑 以 下 NLTK 中 用 于 定义 Maxent Treebank 词性 标注 器 的 代码 : 


def pos tag(tok): 


"mmm 














我 们 可 以 使 用 由 NLTK 提供 的 词性 标注 器 来 标注 一 个 标识 符 列表 : 


>>> from nltk.tag import pos tag 














>>> from nltk.tokenize import word tokenize 
>>> pos tag(word tokenize("Papa's favourite hobby is reading.")) 


[('Papa', 'NNP'), ("'s", 'POS'), ('favourite', 'JJ'), 
('hobby', 'NN'), ('is', 
'VBZ'), ('reading', 'VB'), ('.', '.')] 





:param tokens: list of tokens that need to be tagged 
itype tok: list(str) 
:return: The tagged tokens 





:rtype: list(tuple(str, str)) 
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"mmm 





tagger - load( POS TAGGER) 
return tagger.tag(tok) 


def batch pos tag(sent): 


"mnm 


We can use part of speech tagger given by NLTK to perform tagging 


of list of tokens. 


"mnm 





tagger - load( POS TAGGER) 
return tagger.batch tag (sent) 


4.3 选择 一 种 机 器 学 习 算 ; 

















词性 标注 也 被 称 为 词义 消 歧 或 语法 标注 。 词 性 标注 算法 可 分 为 两 种 类 型 基于 规则 的 
(rule-based) 或 随机 (stochastic/probabilistic〉 的 标注 算法 。E. Brill's 标注 器 就 是 在 基于 规 
































则 的 标注 算法 的 基础 上 建立 的 。 
词性 分 类 器 将 文档 作为 输入 并 获取 单词 的 特征 
































o 











已 借助 这 些 与 已 经 可 用 的 训练 标签 相 

















结 
关 器 以 便 为 单词 生成 标记 。 




















合 的 单词 特征 来 训练 它 自己 。 这 种 类 型 的 分 类 器 被 称 为 二 阶 分 类 器 ， 


一 个 backoff 分 类 器 是 可 以 执行 回 退 过 程 的 分 类 器 。 可 以 通过 这 样 的 方式 获取 输出 : 





并 且 它 使 用 引导 分 























三 元 词性 标注 器 依赖 于 二 元 词性 标注 器 ， 二 元 词性 标注 器 依赖 于 一 元 词性 标注 器 。 
在 训练 词性 分 类 器 时 ， 会 生成 一 个 特征 集 。 该 特征 集 大 体 组 成 如 下 : 
































。 当前 单词 的 信息 。 
。 上 一 个 单词 或 前 缀 的 信息 。 
。 下 一 个 单词 或 后 缀 的 信息 。 


ft NLTK +, FastBrillTagger 类 是 基于 一 元 语法 的 。 它 使 
其 词性 标记 信息 的 字典 。 


让 我 们 来 看 看 NLTK 中 使 用 FastBrillTagger 的 代码 : 
















































































from nltk.tag import UnigramTagger 
from nltk.tag import FastBrillTaggerTrainer 


一 个 包含 已 知 单词 及 





from nltk.tag.brill import SymmetricProximateTokensTemplat 
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from nltk.tag.brill import ProximateTokensTemplat 

from nltk.tag.brill import ProximateTagsRule 

from nltk.tag.brill import ProximateWordsRule 

ctx = [ # Context = surrounding words and tags. 
SymmetricProximateTokensTemplate(ProximateTagsRule, (1, 1)), 
SymmetricProximateTokensTemplate(ProximateTagsRule, (1, 2)), 
SymmetricProximateTokensTemplate(ProximateTagsRule, (1, 3)), 
SymmetricProximateTokensTemplate(ProximateTagsRule, (2, 2)), 
SymmetricProximateTokensTemplate(ProximateWordsRule, (0, 0)), 
SymmetricProximateTokensTemplate(ProximateWordsRule, (1, 1)), 
SymmetricProximateTokensTemplate(ProximateWordsRule, (1, 2)), 
ProximateTokensTemplate(ProximateTagsRule, (-1, -1), (1, 1)), 


tagger = UnigramTagger (sentences) 
tagger = FastBrillTaggerTrainer(tagger, ctx, trace=0) 





tagger = tagger.train(sentences, max_rules=100) 


文本 分 类 可 以 认为 是 一 个 为 给 定 的 输入 确定 词性 标记 的 过 各 


在 监督 式 分 类 中 ， 使 用 了 一 个 包含 单词 及 其 正确 标记 的 训练 语料库 。 在 非 监督 式 分 类 
中 ， 不 存在 任何 单词 对 和 一 个 正确 的 标记 列表 。 

在 监督 式 分 类 中 ， 在 训练 期 间 ， 特 征 提取 器 接受 输入 和 标签 并 生成 特征 集 ， 如 图 4-2 
所 示 。 这 些 特征 集 与 标签 一 起 作为 机 器 学 习 算 法 的 输入 。 在 测试 或 预测 阶段 ， 使 用 特征 提 
取 器 从 未 知 的 输入 中 生成 特征 集 ， 并 且 将 输出 的 特征 集 发 送 到 分 类 模型 中 ， 该 模型 在 机 器 
学 习 算法 的 帮助 下 生成 了 以 标签 或 词性 标记 信息 形式 呈现 的 输出 。 
训练 集 


Hin 





o 



























































预测 集 
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最 大 焙 分 类 器 通过 搜索 参数 集 以 便 最 大 化 用 于 训练 的 语料库 的 整体 似 然 性 。 
它 可 以 定义 如 下 : 



































P(features word) =2,y)injcorpus P(label word(x)|features word(x)) 
P(label word|features word)-P(label word, features word) 








/Ziabel wora P(label word, features word) 
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一 元 语法 意味 着 一 个 独立 的 单词 ， 在 一 元 语法 标注 器 中 ， 单 个 的 标识 符 用 于 查找 特定 
的 词性 标记 。 

可 以 通过 在 初始 化 标注 器 时 提供 一 个 句子 的 列表 来 执行 UnigramTagger 的 训练 。 

让 我 们 来 看 看 下 面 在 NLTK 中 用 于 执行 UnigramTagger 训练 的 代码 : 




































































>>> import nltk 
>>> from nltk.tag import UnigramTagger 

>>> from nltk.corpus import treebank 

>>> training- treebank.tagged sents()[:7000] 

>>> unitagger-UnigramTagger (training) 

>>> treebank.sents()[0] 

['Pierre', 'Vinken', ',', '61', 'yearsS', 'old', ',', 'will', 'join', 
'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov.', '29', 
nt] 

>>> unitagger.tag(treebank.sents()[0]) 

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ('61', 'CD'), 
(years “n "NNS'),; (t'"old", Sd) (tt hee) pe WiLL MD); (FOr 
SVB), (thet TDT! jy (hoard? "NNUS (nas yy MINT. cC. IDT"); 
('nonexecutive', 'JJ'), ('director', 'NN'), ('Nov.', 'NNP'), ('29', 


"GEL qoe T 





以 上 代码 中 ， 我 们 使 用 Treebank 语料库 的 前 7000 个 句子 进行 了 训练 。 


UnigramTagger 的 层次 结构 继承 图 如 图 4-3 所 示 。 
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要 评估 UnigramTagger， 让 我 们 来 看 看 下 面 用 于 计算 其 准确 性 的 代码 ; 

















>>> import nltk 
>>> from nltk.corpus import treebank 

>>> from nltk.tag import UnigramTagger 

>>> training- treebank.tagged sents()[:7000] 
>>> unitagger-UnigramTagger (training) 





>>> testing = treebank.tagged sents()[2000:] 
>>> unitagger.evaluate(testing) 
0.963400866227395 





因此 ， 在 正确 地 执行 词性 标注 时 ， 它 的 准确 率 为 96%。 


既然 UnigramTagger 继承 于 ContextTagger,， 那么 我 们 可 以 用 一 个 特定 的 标记 映 
射 上 下 文 键 。 


考虑 以 下 有 关 使 用 UnigramTagger 进行 词性 标注 的 代码 示例 : 


























>>> import nltk 

>>> from nltk.corpus import treebank 

>>> from nltk.tag import UnigramTagger 

>>> unitag = UnigramTagger (model-('Vinken': 'NN'}) 

>>> unitag.tag(treebank.sents()[0]) 

[('Pierre', None), ('Vinken', 'NN'), (',', None), ('61', None), 


('years', None), ('old', None), (',', None), ('will', None), ('join', 





TERME CREME RD M 








None), ('the', None), ('board', None), ('as', None), ('a', None), 
('nonexecutive', None), ('director', None), ('Nov.', None), ('29', 
None), ('.', None)] 























在 以 上 代码 中 , 这 里 的 UnigramTagger 仅 用 'NN' 标 记 标 注 了 '"Vinken'， 其 余 的 用 
"None! 标记 进 行 了 标注 ， 这 是 因为 我 们 已 经 在 上 下 文 模型 中 提供 了 单词 'Vinken ' 的 标 
记 ， 并 且 该 模型 不 包括 其 他 单词 。 

在 一 个 给 定 的 上 下 文中 ，ContextTagger 使 用 给 定 标记 的 频率 来 决定 最 有 可 能 出 现 
的 标记 。 为 了 使 用 最 小 阔 值 频率 ， 我 们 可 以 将 特定 值 传递 到 截止 值 。 让 我 们 来 看 看 评估 
UnigramTagger 的 代码 : 










































































































































































>>> unitagger = UnigramTagger (training, cutoff=5) 





>>> unitagger.evaluate (testing) 
0.7974218445306567 








回 退 标注 可 以 认为 是 SequentialBackoffTagger 的 一 个 特征 。 所 有 标注 器 被 链接 
在 一 起 ,以 便 如 果 其 中 一 个 标注 器 不 能 标注 标识 符 时 ， 那么 将 使 用 下 一 个 标注 器 来 标注 

让 我 们 来 看 看 下 面 使 用 了 回 退 标注 的 代码 。 这 里 , DefaultTagger 和 UnigramTagger 
于 标注 一 个 标识 符 。 如 果 它 们 中 的 任何 一 个 都 无 法 标注 一 个 单词 ， 那 么 可 使 用 下 一 个 标 
注 器 来 标注 这 个 单词 : 
































它 。 








may 














in 




































































>>> import nltk 
>>> from nltk.tag import UnigramTagger 





>>> from nltk.tag import DefaultTagger 

>>> from nltk.corpus import treebank 

>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 
>>> tagl-DefaultTagger('NN') 

>>> tag2-UnigramTagger(training,backoff-tagl) 








>>> tag2.evaluate (testing) 
0.963400866227395 








NgramTagger 的 子 类 是 UnigramTagger. BigramTagger 和 TrigramTagger. 
BigramTagger 使 用 前 一 个 标记 作为 上 下 文 信息 , TrigramTagger 使 用 前 两 个 标记 作为 
上 下 文 信息 。 


考虑 下 面 的 代码 ， 这 上 段 代 人 码 展示 了 BigramTagger 的 实现 : 
































>>> import nltk 
>>> from nltk.tag import BigramTagger 
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>>> from nltk.corpus import treebank 

>>> training 1- treebank.tagged sents()[:7000] 

>>> bigramtagger=BigramTagger (training 1) 

>>> treebank.sents()[0] 

['Pierre', 'Vinken', ',', '61', 'yearsS', 'old', ',', 'will', 'join', 
'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov.', '29', 
mony 

>>> bigramtagger.tag(treebank.sents()[0]) 

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ('61', 'CD'), 
(“years*;. *"NNS'), (*old'; "Jut. (Uh ttyg Owes, AMDT] y (jen, 
"UB'y. (the "gj. (hoard; TNN th, ("aet MIN Y ("at TDD; 
('nonexecutive', 'JJ'), ('director', 'NN'), ('Nov.', 'NNP'), ('29', 
'CD'), (!.'t, ('!.!1)] 

>>> testing 1 = treebank.tagged sents()[2000:] 





>>> bigramtagger.evaluate(testing 1) 
0.922942709936983 




















让 我 们 看 看 另 一 段 有 关 BigramTagger fll TrigramTagger 的 代码 : 











>>> import nltk 

>>> from nltk.tag import BigramTagger, TrigramTagger 
>>> from nltk.corpus import treebank 

>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 
>>> bigramtag = BigramTagger (training) 

>>> bigramtag.evaluate(testing) 
0.9190426339881356 

>>> trigramtag = TrigramTagger (training) 

>>> trigramtag.evaluate (testing) 
0.9101956195989079 












































NgramTagger 也 可 以 用 于 生成 n 大 于 3 的 标注 器 。 让 我 们 看 看 如 下 在 NLTK 中 开发 
一 个 QuadgramTagger 标注 器 的 代码 : 


>>> import nltk 

>>> from nltk.corpus import treebank 

>>> from nltk import NgramTagger 

>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 
>>> quadgramtag = NgramTagger (4, training) 





>>> quadgramtag.evaluate (testing) 
0.9429767842847466 
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AffixTagger 也 是 一 个 ContextTagger， 它 使 用 前 缀 或 后 级 作为 上 下 文 信息 。 


让 我 们 来 看 看 如 下 使 用 了 AffixTagger 的 代码 : 


>>> import nltk 








>>> from nltk.corpus import treebank 

>>> from nltk.tag import AffixTagger 

>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 
>>> affixtag = AffixTagger(training) 

>>> affixtag.evaluate (testing) 
0.29043249789601167 








让 我 们 来 看 看 下 面 有 关 学 习 和 使 用 4 个 字符 前 绥 的 代码 : 


>>> import nltk 
>>> from nltk.tag import AffixTagger 




















>>> from nltk.corpus import treebank 

>>> testing = treebank.tagged sents()[2000:] 

>>> training- treebank.tagged sents()[:7000] 

>>> prefixtag = AffixTagger(training, affix length-4) 
>>> prefixtag.evaluate(testing) 

0.21103516226368618 





考虑 如 下 有 关 学 习 和 使 用 3 个 字符 后 级 的 代码 : 


>>> import nltk 
>>> from nltk.tag import AffixTagger 





>>> from nltk.corpus import treebank 

>>> testing = treebank.tagged sents()[2000:] 

>>> training- treebank.tagged sents()[:7000] 

>>> suffixtag = AffixTagger(training, affix length--3) 
>>> suffixtag.evaluate(testing) 


0.29043249789601167 


考虑 如 下 NLTK 中 的 代码 ， 它 组 合 了 许多 回 退 链 中 的 词缀 标注 器 : 


>>> import nltk 
>>> from nltk.tag import AffixTagger 














>>> from nltk.corpus import treebank 
>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 


>>> prefixtagger-AffixTagger(training,affix length-4) 





>>> prefixtagger.evaluate (testing) 
0.21103516226368618 
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>>> prefixtagger3=AffixTagger (training, affix_ 


length=3,backoff=prefixtagger) 





>>> prefixtagger3.evaluate (testing) 


0.25906767658107027 


>>> suffixtagger3=AffixTagger (training, affix length-- 


3,backoff=prefixtagger3) 





>>> suffixtagger3.evaluate (testing) 


0.2939630929654946 


>>> suffixtagger4=AffixTagger (training,affix length-- 


4,backoff-suffixtagger3) 








>>> suffixtagger4.evaluate (testing) 





0.3316090892296324 




















TnT 代表 的 是 Trigrams n Tags. TnT 建立 在 二 阶 马 尔 科 夫 模型 的 基础 之 上 ， 是 一 个 基 
于 统计 的 标注 器 。 








te 

















>>> import nltk 


上 我 们 来 看 看 NLTK PAK TnT 的 代码 : 


>>> from nltk.tag import tnt 

>>> from nltk.corpus import treebank 

>>> testing = treebank.tagged sents()[2000:] 
>>> training- treebank.tagged sents()[:7000] 
>>> tnt tagger-tnt.TnT() 

>>> tnt tagger.train(training) 





>>> tnt tagger.evaluate (testing) 


0.9882176652913768 





TnT 从 训练 文本 中 计算 了 ConditionalFreqDist fll internalFreqDist. ie 
实例 用 于 计算 一 元 语法 模型 、 二 元 语法 模型 和 三 元 语法 模型 。 为 了 选择 最 佳 的 标记 ，TnT 





使 月 





HI n 元 语法 模型 。 





的 值 ， 那 么 TRAINI 














考虑 如 下 有 关 DefaultTagger 的 代码 。 在 这 段 代 人 码 中 ， 如 果 明 确 给 出 了 未 知 标注 器 














>>> import nltk 


ED 将 被 设置 为 TRUE: 








| 


>>> from nltk.tag import DefaultTagger 


>>> from nltk.tag import tnt 





>>> from nltk.corpus import treebank 


>>> testing = treebank.tagged sents()[2000:] 


>>> training- treebank.tagged sents()[:7000] 


>>> tnt tagger-tnt.] 
>>> unknown-Default]l 
>>> tagger tnt-tnt.7 


Du 


n 


r() 


Tagger ('NN') 








Ma 


n 


l'(unk-unknown, Trained=True) 
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>>> tnt_tagger.train(training) 
>>> tnt_tagger.evaluate (testing) 
0.988238192006897 





4.5 使 用 词性 标注 语料库 开发 分 块 器 











分 块 是 一 个 可 用 于 执行 实体 识别 的 过 程 。 它 用 于 分 割 和 标记 名 中 的 多 个 标识 符 序列 。 
为 了 设计 一 个 分 块 器 , 应 该 定义 分 块 语 法 。 分 块 语法 包含 了 有 关 如 何 进行 分 块 的 规则 。 
让 我 们 考虑 如 下 通过 构建 分 块 规则 来 执行 名 词 短 语 分 块 (Noun Phrase Chunking) 的 示例 : 


>>> import nltk 
>>> sent=[("A","DT"), ("wise", "JJ"), ("small", "JJ"), ("girl", "NN"), 

("of", "IN"), ("village", "N"), ("became", "VBD"), ("leader", "NN") ] 

>>> sent-[("A","DT"),("wise", "JJ"), ("small", "JJ"),("girl", "NN"), 

("of", "IN"), ("village", "NN"), ("became", "VBD"), ("leader", "NN")] 
= "NP: {<DT>?<JJ>*<NN><IN>?<NN>*}" 

>>> find = nltk.RegexpParser (grammar) 









































>>> grammar 


>>> res = find.parse(sent) 
>>> print (res) 
(S 
(NP A/DT wise/JJ small/JJ girl/NN of/IN village/NN) 
became/VBD 
(NP leader/NN)) 
>>> res.draw() 


生成 了 如 图 4-4 所 示 的 解析 树 。 





S 
NP became VBD NP 
ADT wiseJJ smalJ girNN oflN village NN leader NN 
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在 这 里 ， 有 关 名 词 短语 的 语 块 规则 被 定义 为 由 可 选 的 DT《〈 限 定 词 )、 后 跟 任 意 数 量 的 









































本 《〈 形 容 词 )、 再 跟 一 个 NN《〈 和 名词)、 可 选 的 IN 《介词 ) 以 及 任意 数量 的 NN 所 组 成 。 











考虑 另 一 个 用 任意 数量 的 名 词 构建 的 名 词 短语 分 块 规则 的 示例 : 


>>> import nltk 





>>> nounl=[("financial","NN"), ("year","NN"), ("account","NN"), ("summar 








y", "NN") ] 

>>> gram="NP: {<NN>+}" 

>>> find = nltk.RegexpParser (gram) 

>>> print (find. parse (nounl) ) 

(S (NP financial/NN year/NN account/NN summary/NN) ) 
>>> x=find.parse(nounl) 

>>> x.draw() 








输出 结果 以 解析 树 的 形式 如 图 4-5 所 示 。 








S 


NP 


financial NN year NN account NN summary NN 








4-5 
分 块 是 语 块 的 一 部 分 被 消除 的 过 程 。 既 可 以 使 用 整个 语 块 , 也 可 以 使 用 语 块 中 间 的 一 部 分 
并 删除 剩余 的 部 分 ， 或 者 也 可 以 使 用 语 块 从 开始 或 结尾 截取 的 一 部 分 并 删除 剩余 的 部 分 。 
考虑 在 NLTK 中 有 关 UnigramChunker 的 代码 , 这 段 代码 被 开发 用 来 执行 分 块 和 解析 : 


class UnigramChunker(nltk.ChunkParserlI): 










































































def init (self,training) : 
training data=[[(x,y) for p,x,y in nltk.chunk.treeconlltags (sent) ] 


for sent in training] 





self.tagger=nltk.UnigramTagger (training data) 
def parsing(self,sent): 

postags=[posl for (wordl,posl) in sent] 

tagged postags-self.tagger.tag(postags) 

chunk tags-[chunking for (posl,chunktag) in tagged postags] 
conll tags-[(word,posl,chunktag) for ((word,posl),chunktag) 

in zip(sent, chunk tags)] 
return nltk.chunk.conlltaags2tree (conlltags) 











考虑 下 面 的 代码 ， 它 可 以 用 来 评估 分 块 器 在 训练 之 后 的 准确 度 : 














import nltk.corpus, nltk.tag 


def ubt conll chunk accuracy(train sents, test sents): 





chunks train -conll tag chunks (training) 
chunks test -conll tag chunks (testing) 
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chunker4 -nltk.tag. 


词性 标注 : 单词 识别 





chunkerl -nltk.tag.UnigramTagger(chunks train) 
print 'u:', nltk.tag.accuracy(chunkerl, chunks test) 


chunker2 -nltk.tag.BigramTagger(chunks train, backoff-chunkerl) 
print 'ub:', nltk.tag.accuracy(chunker2, chunks test) 


" 


tag.TrigramTagger(chunks train, backoff-chunker2) 


print 'ubt:', nltk.tag.accuracy(chunker3, chunks test) 


a 








'rigramTagger(chunks train, backoff-chunkerl) 


print 'ut:', nltk.tag.accuracy(chunker4, chunks test) 














chunker5 -nltk.tag.BigramTagger (chunks train, backoff-chunker4) 





print 'utb:', nltk.tag.accuracy(chunker5, chunks test) 


f accuracy test for conll chunking 


conll train -nltk.corpus.conll2000.chunked sents('train.txt') 
conll test -nltk.corpus.conll2000.chunked sents('test.txt') 
ubt conll chunk accuracy(conll train, conll test) 


f accuracy test for treebank chunking 





treebank sents -nltk.corpus.treebank chunk.chunked sents() 











ubt conll chunk accuracy(treebank sents[:2000], treebank sents[2000:]) 


在 本 章 中 ， 


小 结 









































我 们 讨论 了 词性 标注 、 各 种 不 同 的 词性 标注 器 以 及 用 于 词性 标注 的 

































































此 外 你 还 学 习 了 涉及 n-gram 的 统计 建 模 ， 并 使 用 词性 标记 信息 开发 了 一 个 分 块 器 。 














在 下 一 章 





P， 我 们 将 讨论 Treebank 建设 、CFG 建设 以 及 各 种 不 同 的 解析 算法 等 。 








Ea 








语法 解析 (也 被 称 作 句 法 分 析 ) 是 NLP 中 的 任务 之 
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。 其 被 定义 为 一 个 检查 用 自然 语 











言 书 写 的 字符 序列 是 否 合乎 正式 语法 中 所 定义 的 规则 的 过 程 。 它 是 一 个 将 句子 分 解 为 单词 























或 短语 序列 并 为 它们 提供 特定 的 成 分 类 别 〈 名 词 、 动 词 、 介 词 等 ) 


本 章 将 包含 以 下 主题 : 


5. 1 


语法 解析 是 NLP PU RAR — . E BE MON “ME FA 








Treebank 建设 。 
从 Treebank 提取 上 下 文 无 关 文 法 规则 。 
从 CFG 创建 概率 上 下 文 无 关 文 法 。 

CYK 线 图 解析 算法 。 
Earley 线 图 解析 算法 。 


语法 解析 简介 









































的 过 程 。 





每 个 句子 成 分 的 词性 类 


别 并 分 析 给 定 的 句子 是 否 合乎 语法 规则 的 过 程 。 术 语 parsing 是 从 拉丁 语 pars (oration is) 
派生 的 ， 意 为 词性 。 考 虑 一 个 例子 : Ram bought a book。 这 个 句子 在 语法 上 是 正确 的 。 但 











是 ， 如 果 我 们 换 掉 这 个 句子 ， 月 





























日 这 样 一 个 句子 : Book bought a Ram， 然 后 通过 将 语义 信息 








添加 到 如 此 构建 的 解析 树 上 ， 我 们 可 以 得 出 结论 : 尽管 句子 是 语法 正确 的 ， 但 却 是 语义 错 


误 的 。 因 





























析 树 或 句法 树 的 软件 。 语 法 解析 可 分 为 两 类 : 自 顶 向 下 的 语法 解析 





在 自 顶 向 下 的 语法 解析 中 ， 我 们 从 起 始 符 







































































此 ， 生 成 解析 树 后 还 要 对 其 添加 含义 。 解 析 器 是 一 个 可 以 接受 输入 文本 并 构造 解 





和 自 底 向 上 的 语法 解析 。 


始 一 直 持续 到 单个 的 句子 成 分 。 一 些 自 顶 向 下 
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的 解析 器 包括 递归 下 降解 析 器 《Recursive Descent Parser). LL 解析 器 和 Earley 解析 器 。 在 


自 底 向 上 的 语法 解析 中 ， 我 们 从 单个 的 句子 成 分 开始 一 直 持 续 到 起 始 符 。 一 些 
符 优 先 解 析 器 (Operator-precedence parser)、 简 单 优 
precedence parser)、 简 单 LR 解析 器 (Simple LR Parser), LALR 解析 器 (LALR Parser), 

规范 LR CLR(1)) 解析 器 (Canonical LR (LR(1)) Parser), GLR 解析 器 (GLR Parser), CYK 





解析 器 包括 运 


























sk (CKY) 解析 器 (CYK or(alternatively CKY) Parser)、 递 归 
parser) 和 移 位 归 约 解析 器 (Shift-reduce parser). 


NLIK 中 定义 了 nltk.parse.api.ParserI 类 ,此 类 用 于 获取 
或 句法 结构 。 解 析 器 可 用 于 获取 人 句法 结构 、 语 篇 结构 和 








区 





线 























自 底 向 上 的 





解析 器 (Simple 


提升 解析 器 (Recursive ascent 


























BASH 。 


妈 分 析 法 遵循 动态 规划 方法 。 在 此 过 程 中 ， 一 旦 获得 了 一 些 结果 ， 这 些 结果 就 可 以 





个 给 定 句子 的 解析 


被 视 为 中 间 结 果 ， 并 且 可 以 被 重新 使 用 以 获得 未 来 的 结果 。 不 像 在 自 项 向 下 的 解析 法 中 ， 
这 里 相同 的 任务 不 会 一 次 又 一 次 地 执行 。 


5.2 Treebank 建设 


nltk.corpus.package 包 


料 库 的 内 容 。 








>>> import nltk 
>>> import nltk.corpus 
>>> print (str (nltk.corpus.treebank) .replace('\\\\','/"')) 
<BracketParseCorpusReader in 'C:/nltk data/corpora/treebank/combined'» 
>>> nltk.corpus.treebank. fileids () 





['wsj 0001 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
'wsj 0029. 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 


.mrg', 
0005. 
0009. 
0013. 
0017. 
0021. 
0025. 
mrg', 
0033. 
0037. 
0041. 


含 许 多 corpus reader 





'wsj 0002.mrg', 





mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
'wsj 0030 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 


0006. 
0010. 
0014. 
0018. 

0022. 


0026. 


.mrg', 


0034. 
0038. 
0042. 


Treebank 语料库 也 可 以 通过 nltk.corpus 访问 到 。 文 从 
ileids () 函数 获取 到 ; 


'wsj 0003.mrg', 





mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
'wsj 0031 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 


0007. 
0011. 
0015. 
0019. 

0023. 


DAT. 


.mrg', 


0035. 
0039. 
0043. 


类 ， 





'wsj 0004. 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
mrg', 'wsj 
'wsj 0032. 
mrg', 'wsj 
mrg', 'wsj 





mrg', 'wsj 


的 标识 符 亦 可 以 通过 使 用 





这 些 类 可 用 于 获取 各 种 i 


























0008. 
0012. 
0016. 
0020. 


0024. 
0028 


.mrg', 


0036. 
0040. 
0044. 


mrg', 'wsj 0045.mrg', 'wsj 0046.mrg', 'wsj 0047.mrg', 
mrg', 'wsj 0049.mrg', 'wsj 0050.mrg', 'wsj 0051.mrg', 
mrg', 'wsj 0053.mrg', 'wsj 0054.mrg', 'wsj 0055.mrg', 
mrg', 'wsj 0057.mrg', 'wsj 0058.mrg', 'wsj 0059.mrg', 
mrg', 'wsj 0061.mrg', 'wsj 0062.mrg', 'wsj 0063.mrg', 
mrg', 'wsj 0065.mrg', 'wsj 0066.mrg', 'wsj 0067.mrg', 
mrg', 'wsj 0069.mrg', 'wsj 0070.mrg', 'wsj 0071.mrg', 
mrg', 'wsj 0073.mrg', 'wsj 0074.mrg', 'wsj 0075.mrg', 
mrg', 'wsj 0077.mrg', 'wsj 0078.mrg', 'wsj 0079.mrg', 
mrg', 'wsj 0081.mrg', 'wsj 0082.mrg', 'wsj 0083.mrg', 
mrg', 'wsj 0085.mrg', 'wsj 0086.mrg', 'wsj 0087.mrg', 
mrg', 'wsj 0089.mrg', 'wsj 0090.mrg', 'wsj 0091.mrg', 
mrg', 'wsj 0093.mrg', 'wsj 0094.mrg', 'wsj 0095.mrg', 
mrg', 'wsj 0097.mrg', 'wsj 0098.mrg', 'wsj 0099.mrg', 




















mrg', 'wsj 0101.mrg', 'wsj 0102.mrg', 'wsj 0103.mrg', 
mrg', 'wsj 0105.mrg', 'wsj 0106.mrg', 'wsj 0107.mrg', 
mrg', 'wsj 0109.mrg', 'wsj Ol1lO.mrg', 'wsj Olll.mrg', 
mrg', 'wsj 0113.mrg', 'wsj Oll4.mrg', 'wsj O115.mrg', 
mrg', 'wsj Oll7.mrg', 'wsj 0118.mrg', 'wsj O0119.mrg', 
mrg', 'wsj 0121.mrg', 'wsj 0122.mrg', 'wsj 0123.mrg', 
mrg', 'wsj 0125.mrg', 'wsj 0126.mrg', 'wsj 0127.mrg', 
mrg', 'wsj 0129.mrg', 'wsj 0130.mrg', 'wsj 0131.mrg', 
mrg', 'wsj 0133.mrg', 'wsj 0134.mrg', 'wsj 0135.mrg', 
mrg', 'wsj 0137.mrg', 'wsj 0138.mrg', 'wsj 0139.mrg', 
mrg', 'wsj 0141.mrg', 'wsj 0142.mrg', 'wsj 0143.mrg', 
mrg', 'wsj 0145.mrg', 'wsj 0146.mrg', 'wsj 0147.mrg', 
mrg', 'wsj 0149.mrg', 'wsj 0150.mrg', 'wsj 015l1.mrg', 
mrg', 'wsj 0153.mrg', 'wsj 0154.mrg', 'wsj 0155.mrg', 
mrg', 'wsj 0157.mrg', 'wsj 0158.mrg', 'wsj 0159.mrg', 
mrg', 'wsj 0161.mrg', 'wsj 0162.mrg', 'wsj 0163.mrg', 
mrg', 'wsj 0165.mrg', 'wsj 0166.mrg', 'wsj 0167.mrg', 
mrg', 'wsj 0169.mrg', 'wsj 0170.mrg', 'wsj 0171.mrg', 
mrg', 'wsj 0173.mrg', 'wsj 0174.mrg', 'wsj 0175.mrg', 
mrg', 'wsj 0177.mrg', 'wsj 0178.mrg', 'wsj 0179.mrg', 
mrg', 'wsj Ol181.mrg', 'wsj 0182.mrg', 'wsj 0183.mrg', 
mrg', 'wsj 0185.mrg', 'wsj 0186.mrg', 'wsj 0187.mrg', 
mrg', 'wsj 0189.mrg', 'wsj 0190.mrg', 'wsj O191.mrg', 
mrg', 'wsj 0193.mrg', 'wsj 0194.mrg', 'wsj 0195.mrg', 
'wsj 0197.mrg', 'wsj 0198.mrg', 'wsj 0199.mrg'] 

>>> from nltk.corpus import treebank 

>>> print(treebank.words('wsj 0007.mrg')) 


['McDermott', 'International', 'Inc.', 'said', 'O', 
>>> print(treebank.tagged words('wsj 0007.mrg')) 
[('McDermott', 'NNP'), ('International', 'NNP'), ...] 
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'wsj 0048. 
'wsj 0052. 
'wsj 0056. 
'wsj 0060. 
'wsj 0064. 
'wsj 0068. 
'wsj 0072. 
'wsj 0076. 
'wsj 0080. 
'wsj 0084. 
'wsj 0088. 
'wsj 0092. 
'wsj 0096. 
'wsj 0100. 
'wsj 0104. 
'wsj 0108. 
'wsj 0112. 
'wsj 0116. 
'wsj 0120. 
'wsj 0124. 
'wsj 0128. 
'wsj 0132. 
'wsj 0136. 
'wsj 0140. 
'wsj 0144. 
'wsj 0148. 
'wsj 0152. 
'wsj 0156. 
'wsj 0160. 
'wsj 0164. 
'wsj 0168. 
'wsj 0172. 
'wsj 0176. 
'wsj 0180. 
'wsj 0184. 
'wsj 0188. 
'wsj 0192. 
'wsj 0196.mrg', 
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让 我 们 来 看 看 NLTK 中 有 关 访 问 Penn Treebank 语料库 的 代码 , 它 使 用 了 语料库 模块 中 
的 Treebank 语料库 阅读 器 (Treebank Corpus Reader): 




















>>> import nltk 





>>> from nltk.corpus import treebank 
>>> print(treebank.parsed sents('wsj 0007.mrg')[2]) 
(S 
(NP-SBJ 
(NP (NNP Bailey) (NNP Controls)) 
G 7) 
(VP 
(VBN based) 
(NP (-NONE- *) ) 
(PP-LOC-CLR 
(IN in) 
(NP (NP (NNP Wickliffe)) (, ,) (NP (NNP Ohio))))) 





(VBZ makes) 

(NP 

JJ computerized) 
JJ industrial) 
NNS controls) 
NNS systems) ) ) 
(e 3) 


( 
( 
( 
( 


>>> import nltk 

>>> from nltk.corpus import treebank chunk 
>>> treebank chunk.chunked_sents() [1] 
Tree('S', [Tree('NP', [('Mr.', 'NNP'), 
'VBZ'), Tree('NP', [('chairman', 'NN')]), ('of', 'IN'), Tree('NP', 
[('Elsevier', 'NNP'), ('N.V.', 'NNP')]), (',', ','), Tree('NP', 
[('the', 'DT'), ('Dutch', 'NNP'), ('publishing', 'VBG'), ('group', 
'NN!)]), (t.t, !.1!)]) 

>>> treebank chunk.chunked sents()[1].draw() 


('Vinken', 'NNP')]), ('is', 











以 上 代码 获取 了 如 图 5-1 所 示 的 解析 树 。 


S 
NP isVBZ NP ofIN NP ' NP * 





Aa a 


Mr.NNP Vinken NNP chairman NN Elsevier NNP N.V.NNP the DT Dutch NNP publishing VBG group NN 


5-1 


>>> import nltk 

>>> from nltk.corpus im 
>>> treebank chunk.chun 
[('Mr.', 'NNP'), ('Vink 
"NNI cC ett OPEN) SVG 
('the', 'DT'), ('Dutch' 
ENN e «(Et tlt] 

>>> treebank chunk.chun 
[(('Mr.', 'NNP'), 'NP') 
'S'), (('chairman', 'NN 
'NNP'), 'NP'), (('N.V.' 
UDTUyg NEC). iC’ Duteh! 
(('group', 'NN'), 'NP') 
>>> treebank chunk.chun 
[S -> NP ('is', 'VBZ') 
NPP => (Mes J NN). (> 
('Elsevier', 'NNP') 
'NNP'!) ('publishing', ' 


-> 

















5.2 Treebank 建设 
port treebank chunk 
ked sents()[1].leaves() 
en', 'NNP'), ('is', 'VBZ'), ('chairman', 
Elsevier', ANNB Jy ('N.V.', 'NNP'), Copy ',"9, 
, 'NNP'), ('publishing', 'VBG'), ('group', 
ked sents()[1].pos() 
; (('Vinken', 'NNP'), 'NP'), (('is', 'VBZ'), 
'), 'NP'), (('of', 'IN'), 'S'), (('Elsevier', 
, 'NNP'), 'NP'), ((',', ','), 'S'), (('the', 
, 'NNP'), 'NP'), (('publishing', 'VBG'), 'NP'), 
fe! dues vant INS] 
ked_sents() [1] .productions () 
NP Ghote; TTNS ENB ut M. Cu Sk NB (By oa) 
Vinken', 'NNP'), NP -> ('chairman', 'NN'), NP 
('N.V.', 'NNP'), NP -> ('the', 'DT') ('Dutch', 
VBG') ('group', 'NN')] 














tagged words () 方法 包含 了 词性 注释 : 


>>> nltk.corpus.treeban 


[('Pierre', 'NNP'), 


('Vinken', 


k.tagged_words () 
'NNP'!), 


(* t Vy. 








Penn Treebank 语料库 中 所 月 








ju 















































# 16 
$ 724 
; 4886 
-LRB- 120 
-NONE- 6592 
-RRB- 126 

384 

563 

72 
CC 2265 
CD 3546 
DT 8165 











的 标记 类 型 及 这 些 标记 的 数量 展示 如 下 : 
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EX 













































































VBD 





VBG 





VBN 





VBP 





VBZ 





WDT 





WP 








WP$ 











从 以 下 代码 可 以 获取 到 标签 及 


>>> 
>>> 
>>> 
>>> 
>>> 


dict items([]) 
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频率 : 


AL 





import nltk 


from nltk.probability import FreqDist 


from nltk.corpus import treebank 
fd = FreqDist () 


fd.items() 











上 面 的 代码 获取 了 Treebank 语料库 中 的 标记 列表 以 及 每 个 标记 的 频率 。 


>>> 








让 我 们 来 看 看 NLIK 中 有 关 访 问 Sinica Treebank 语料库 的 代码 : 




















import nltk 





>>> from nltk.corpus import sinica treebank 


>>> print(sinica treebank.sents()) 


[ Y 


Tre 
Tre 





ay 


>>> Sinica treebank.parsed sents () [27] 


e('S', 


e('DE', 
Tree('Dd', ['#ilht']), Tree('DM', ['—}r']), Tree('VH11', ['ZXÉ'])1) 





‘Rib 1, DEED, A, ES, ME, AR, VET, ... 











[Tree('NP', [Tree('NP', [Tree('N°ffJ', [Tree('Nhaa', ['#%']), 
['89'1)]), Tree('Ncb', ['HWIRE'])1), Tree('Ncda', ['#'])]), 


fey 























5.3 从 Treebank 提取 上 下 文 无 关 文 法 规则 




















上 下 文 无 关 文法 (Context-free Grammar, CFG) 是 在 1957 年 由 Noam Chomsky 为 自然 


语言 定义 的 。 





一 个 CFG 由 以 下 部 分 组 成 : 














非 终结 符 的 有 限 集合 CN). 
终结 符 的 有 限 集合 〈T)。 


开始 符号 (S). 





产生 式 























HEREA (P)， 形 如 : A 一 a。 

















CFG 规则 有 两 种 类 型 : 短语 结构 规则 和 句子 结构 规则 。 
短语 结构 规则 可 以 定义 如 下 : Aa, FE AIN 和 a 由 终结 符 和 非 终 结 符 组 成 。 
在 句子 级 别 的 CFG 构建 中 ， 有 如 下 四 种 结构 : 



























































陈述 结构 :处理 陈述 名 (主语 后 面 跟着 谓语 )。 


祈 合 结构， 处 理 祈 使 句 ， 命 令 或 建议 (句子 以 动词 短语 开头 ， 没 有 主语 )。 
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。 一 般 疑 问 结构 : 处 理 疑 问 句 。 这 些 问 句 的 答案 是 yes 9X no. 
。 特殊 疑问 结构 : 处 理 疑 问 句 。 以 特殊 疑问 词 (Who, What, How, When, Where, Why, 
Which) 开头 的 问 句 。 


常用 的 CFG 规则 总 结 如 下 : 


e S—NP VP 








e S—VP 

e S—Aux NP VP 

e S—Wh-NP VP 

e S—Wh-NP Aux NP VP 

e NP—(Det) (AP) Nom (PP) 

e VP—Verb (NP) (NP) (PP)* 

e VP—Verb S 

e PP 一 Prep (NP) 

e AP 一 (Adv) Adj (PP) 

考虑 一 个 描述 了 在 NLTK 中 使 用 上 下 文 无 关 文 法 规则 的 例子 : 


























>>> import nltk 

>>> from nltk import Nonterminal, nonterminals, Production, CFG 
>>> nonterminall = Nonterminal('NP') 

= Nonterminal('VP') 


>>> nonterminal2 
>>> nonterminal3 = Nonterminal('PP') 
1 


>>> nonterminall.symbol () 
"NP! 
>>> nonterminal2.symbol () 
"VP' 
>>> nonterminal3.symbol () 
'pp! 


>>> nonterminall==nonterminal2 
False 
>>> nonterminal2==nonterminal3 


False 





>>> nonterminall==nonterminal3 
False 
>>> S, NP, VP, PP = nonterminals('S, NP, VP, PP') 
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>>> N, V, P, DT = nonterminals('N, V, P, DT") 
>>> productionl = Production(S, [NP, VP]) 

>>> production2 = Production(NP, [DT, NP]) 

>>> production3 = Production(VP, [V, NP,NP,PP]) 
>>> productionl.lhs|() 





>>> productionl.rhs () 


(NP, VP 


) 


>>> production3.lhs() 





>>> production3.rhs() 


(V, NP, 


NP, PP) 


>>> production3 == Production(VP, [V,NP,NP, PP] ) 


True 








>>> production2 == production3 


False 








fc NLTK 中 用 于 访问 ATIS 语法 的 示例 如 下 : 


>>> import nltk 
>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 


>>> graml 


<Grammar with 5517 productions> 


从 ATIS 提取 测试 句子 的 示例 如 下 ; 


>>> import nltk 


>>> sen 
txt') 
>>> sen 
>>> len 
98 

>>> tes 
>>> tes 
ll 

>>> tes 








t = nltk.data.load('grammars/large grammars/atis sentences. 
t = nltk.parse.util.extract test sentences (sent) 

(sent) 

tingsent-sent[25] 


tingsent [1] 





tingsent [0] 


['list', 'those', 'flights', 'that', 'stop', 'over', 'in', 'salt', 


'lake', 


>>> sen 





'city', V zi] 





t-testingsent[0] 


自 底 向 上 的 语法 解析 : 


>>> import nltk 
>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 
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>>> 
txt! 
>>> 
>>> 
>>> 
Sos 
>>> 
> 
1345 
>>> 
TI 


自 底 





>>> 
SSS 
>>> 
txt" 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
8781 
>>> 





SSS 
>>> 
txt! 
>>> 
S5 
>>> 
se 
>>> 
>>> 
1280 
>>> 
11 


sent = nltk.data.load('grammars/large grammars/atis sentences. 


) 


sent = nltk.parse.util.extract_test_sentences (sent) 





testingsent=sent [25] 
sent=testingsent[0] 


parserl = nltk.parse.BottomUpChartParser (graml) 
chartl = parserl.chart parse(sent) 
print((chartl.num edges())) 


4 
print((len(list(chartl.parses (graml.start()))))) 








I] E. £f (Left Comer) 语法 解析 ; 


import nltk 

graml = nltk.data.load('grammars/large grammars/atis.cfg') 
sent = nltk.data.load('grammars/large grammars/atis sentences. 
) 


sent = nltk.parse.util.extract_test_sentences (sent) 





testingsent=sent [25] 

sent=testingsent[0] 

parser2 = nltk.parse.BottomUpLeftCornerChartParser (graml) 
chart2 = parser2.chart parse (sent) 

print((chart2.num edges())) 

print((len(list(chart2.parses (graml.start()))))) 








了 自 底 向 上 过 滤器 的 左 角 语 法 解析 : 





import nltk 





graml = nltk.data.load('grammars/large grammars/atis.cfg') 
sent = nltk.data.load('grammars/large grammars/atis sentences. 
) 


sent = nltk.parse.util.extract_test_sentences (sent) 








testingsent=sent [25] 

sent=testingsent[0] 

parser3 = nltk.parse.LeftCornerChartParser (graml) 
chart3 = parser3.chart parse(sent) 
print((chart3.num edges())) 





print ((len (list (chart3.parses(graml.start()))))) 
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自 顶 向 下 的 语法 解析 : 





>>> import nltk 
>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 

>>> sent = nltk.data.load('grammars/large grammars/atis sentences. 
txt') 
>>> sent = nltk.parse.util.extract test sentences (sent) 











>>> testingsent-sent[25] 

>>> sent-testingsent[0] 

>>> parser4 = nltk.parse.TopDownChartParser (graml) 
>>> chart4 = parser4.chart_parse(sent) 

>>> print ((chart4.num_edges() ) ) 

37763 
>>> print ((len (list (chart4.parses(graml.start()))))) 
11 








增 量 式 自 底 向 上 语法 解析 : 


>>> import nltk 





>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 

>>> sent = nltk.data.load('grammars/large grammars/atis sentences. 
txt') 

>>> sent = nltk.parse.util.extract test sentences (sent) 





>>> testingsent-sent [25] 
>>> sent-testingsent[0] 





>>> parserb5 = nltk.parse.IncrementalBottomUpChartParser (graml) 
>>> chart5 = parserb5.chart parse (sent) 

>>> print ((chart5.num_edges() ) ) 

13454 

>>> print ((len (list (chart5.parses(graml.start()))))) 

TT 


增 量 式 自 底 向 上 、 左 角 语 法 解析 : 


>>> import nltk 








>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 

>>> sent = nltk.data.load('grammars/large grammars/atis sentences. 
txt") 

>>> sent = nltk.parse.util.extract test sentences (sent) 

>>> testingsent-sent [25] 

>>> sent-testingsent[0] 





>>> parser6 = nltk.parse.IncrementalBottomUpLeftCornerChartParser (gr 
aml) 
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>>> 
>>> 


8781 


>>> 
11 





使 用 


>>> 
2» 
>>> 
txt! 
>>> 
S» 
>>> 
SSS 
>>> 
>>> 
1280 
>>> 
11 


增 量 


>>> 
>>> 
>>> 
Ext! 
>>> 
SO 
>>> 
S 
>>> 
SSS 





chart6 = parser6.chart parse (sent) 
print ((chart6.num_edges() )) 


print ((len(list (chart6.parses(graml.start()))))) 


了 自 底 向 上 过 滤器 的 增 量 式 左 角 语法 解析 : 


import nltk 





grami = nltk.data.load('grammars/large grammars/atis.cfg') 
sent = nltk.data.load('grammars/large grammars/atis sentences. 
) 


sent = nltk.parse.util.extract_test_sentences (sent) 














testingsent=sent [25] 

sent=testingsent[0] 

parser7 = nltk.parse.IncrementalLeftCornerChartParser (graml) 
chart7 = parser7.chart parse(sent) 

print((chart7.num edges())) 

print((len(list(chart7.parses (graml.start()))))) 

式 自 顶 向 下 语法 解析 : 





import nltk 

graml = nltk.data.load('grammars/large grammars/atis.cfg') 
sent = nltk.data.load('grammars/large grammars/atis sentences. 
) 


sent = nltk.parse.util.extract test sentences (sent) 





testingsent-sent[25] 
sent-testingsent[0] 


parser8 - nltk.parse.IncrementalTopDownChartParser (graml) 
chart8 = parser8.chart parse(sent) 
print((chart8.num edges())) 








37163 

>>> print((len(list(chart8.parses(graml.start()))))) 

ET 

Earley 语法 解析 : 

>>> import nltk 

>>> graml = nltk.data.load('grammars/large grammars/atis.cfg') 

>>> sent = nltk.data.load('grammars/large grammars/atis sentences. 


txt' 


) 
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>>> sent = nltk.parse.util.extract test sentences (sent) 
>>> testingsent-sent [25] 

>>> sent-testingsent[0] 

>>> parser9 = nltk.parse.EarleyChartParser (graml) 





>>> chart9 = parser9.chart parse(sent) 
>>> print ((chart9.num_edges() ) ) 

37763 
>>> print ((len (list (chart9.parses(graml.start()))))) 
TI 


5.4 ”从 CFG 创建 概率 上 下 文 无 关 文 法 





在 概率 上 下 文 无 关 文 法 (Probabilistic Context-free Grammar, PCFG) 中 ， 概 率 被 附加 
到 CFG 中 呈现 的 所 有 产生 式 中 ,这 些 概率 之 和 为 1。 它 生成 与 CFG 相同 的 解析 结构 , 但 是 
也 为 每 个 解析 树 分 配 了 一 个 概率 。 解 析 树 的 概率 是 在 构建 树 的 过 程 中 用 到 的 所 有 产生 式 概 
率 的 乘积 。 


让 我 们 来 看 看 以 下 有 关 NLTK 的 代码 ， 这 段 代 码 说 明了 PCFG 中 的 规则 信息 : 















































>>> import nltk 
>>> from nltk.corpus import treebank 





>>> from itertools import islice 
>>> from nltk.grammar import PCFG, induce pcfg, toy pcfgl, toy pcfg2 
>>> gram2 = PCFG.from string(""" 





A BOBO[.3] | C Rc 1.7] 
B => ED [9] [c [esd 
Cosa tan DUE 35:029] 


D -» 'b' [1.0] 

ES) 

>>> prodl = gram2.productions() [0] 
>>> prodl 

A -> BB [0.3] 

>>> prod2 = gram2.productions() [1] 
>>> prod2 

A-> CBC [0.7] 

>>> prod2.lhs() 

A 

>>> prod2.rhs() 

(C, B, C) 

>>> print ((prod2.prob())) 

0.7 
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>>> gram2.start () 
A 


>>> gram2.productions () 


[A -> B B [0.3], A-> CBC [0.7], 


tat LOS shy uem Ub 




















我 们 来 看 看 NLTK 中 用 于 说 明 概 率 分 布 图 解析 的 代码 : 





>>> import nltk 


0.9], 


QO] 


>>> from nltk.corpus import treebank 


>>> from itertools import islice 





>>> from nltk.grammar import PCFG, 


B-» BD [0.5], 


induce pcfg, 


toy pcfgl, 


>>> tokens = "Jack told Bob to bring my cookie".split () 
>>> grammar = toy pcfg2 


>>> print (grammar) 


Grammar with 23 productions 

















S -> NP VP [1.0] 

VP -> V NP [0.59 

VP -> V [0.4 

VP -> VP PP [0.01 
NP -> Det N [0.41 
NP -> Name [0.28 

NP -> NP PP [0.31 
PP -> P NP [1.0] 

V -> 'saw' [0.21 

V -» 'ate!' [0.51 

V -> 'ran' [0.28 

N -> 'boy' [0.11 

N -> 'cookie' [0. 


N -> 'telescope' 
N -> 'hill' [0.5 





N -> 'table' [0.1 





Det -> 'a' [0.31 





12] 
3] 
[0.14] 


Name -> 'Jack' [0.52] 
Name -> 'Bob' [0. 
P -> 'with' [0.61 
P -> 'under' [0.39] 
Det -> 'the' [0.41] 


48] 
] 


Det -> 'my' [0.28] 


5.5 CYK 线 图 解析 算 ; 





递归 下 降解 析 的 缺点 是 它 会 导致 左 递归 问题 并 且 非 常 复杂 ， 所 以 引入 了 CYK 线 


(start state 





S) 


toy pcfg2 


Bc EOD 7G ee 





图 解 
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析 。CYK 线 图 解析 使 用 动态 规划 方法 ， 是 最 简单 的 线 图 解析 算法 之 一 。CYK 算法 构建 线 
图 的 时 间 复 杂 度 为 O (n3)。CYK 和 Earley 都 是 自 底 向 上 的 线 图 解析 算法 。 但 是 ， 当 构建 
了 无 效 的 解析 时 ，Earley 算法 也 使 用 自 项 向 下 的 预测 。 


考虑 如 下 有 关 CYK 线 图 解析 的 代码 : 
































tok = ["the", "kids", "opened", "the", "box", "on", "the", "floor"] 
gram - nltk.parse cfg(""" 

S -> NP VE 
NP -> Det N | NP PP 
VP -> V NP | VP PP 
PP -> P NP 
Det -> 'the' 


N -> 'kids' | 'box' | 'floor' 








V -> 'opened' P -> 'on' 


"nw ") 








考虑 如 下 用 于 构建 初始 化 线 图 的 代码 : 








def init nfst(tok, gram): 


numtokensl = len(tok) 
# fill w/ dots 
nfst = [["." for i in range(numtokens1+1)] !!!!!!! for j in 


range (numtokens1+1) ] 

# fill in diagonal 

for i in range(numtokens1): 

prod= gram.productions (rhs=tok[i] ) 
nfst[i] [itl] = prod[0].1hs() 


return nfst 








考虑 如 下 用 于 填充 线 图 的 代码 : 











def complete nfst (nfst, tok, trace=False): 
indexl = {} for prod in gram.productions(): 
#make lookup reverse 

indexl[prod.rhs()] = prod.lhs () 


numtokensl = len(tok) for span in range(2, numtokens1+1): 





for start in range(numtokensl+1-span): 

#go down towards diagonal 

endl = startl + span for mid in range(startl-*1, endl): 
ntl, nt2 = nfst[startl1][mid1], nfst[mid1] [end1] 
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if (ntl1,nt2) in indexl: 
if trace: 


print "[$s] $3s [$s] $3s [$s] ==> [Ss] $3s [$s]" $ \ (start, ntl,midl, nt2, 


endl, startl, index[(ntl,nt2)], end) 


nfst[startl] [endl] = 
index[ (ntl1,nt2) ] 
return nfst 

















下 面 是 在 Python 中 用 于 构建 显示 线 图 的 代码 : 


def display(wfst, tok): 

print 'NnWFST ' + ' '.join([("$-4d" $ i) for i in range(1, 
len(wfst))]) 

for i in range(len(wfst)-1): 

print "Sd" $ i, 

for j in range(1, len(wfst)): 

print "$-4s" $ wfst[il[jl, 





print 
以 下 代码 用 于 获取 输出 结果 : 


tok = ["the", "kids", "opened", "thet "box", "on", "the", "floor"] 


resl = init wfst(tok, gram) 














display (resl, tok) 





res2 = complete wfst(resl,tok) 
display (res2, tok) 


5.6 Earley 线 图 解析 算 ; 


递归 问题 ， 并 且 不 需要 CNF 〈 乔 姆 斯 基 范 式 ) 转化 。Earley 






































Earley 算法 由 Earley 于 1970 年 提出 。 该 算法 类 似 于 自 顶 向 下 的 语句 解析 。 它 可 以 处 理 左 
去 以 从 左 到 右 的 方式 填充 线 图 。 
考虑 一 个 展示 了 用 Earley 线 图 解析 器 来 进行 语法 解析 的 示例 : 


>>> import nltk 
>>> nltk.parse.earleychart.demo (print times-False, trace-1,sent-'I saw 









































A 


















































a dog', numparses-2) 

* Sentence: 

I saw a dog 

['I*, *'saw', 'a', 'dog'] 


la I i Saw a s dog E 
| [--------- ] 3 x el TOSTI EI 
|. | ] .| [1:2] 'saw' 


No SMe ONE NE 





























[--------- > 
. [--------- ] 
[espe ee tpe ] 
[--------- > 
> à 
ceci ] 
Messer > 
> 
[ — (c — 
[ es pci ee e paul Ee ga E d Es aei e E ec da EN ar re Bee i e nad Me dee ad 
wee au Rr Sae e sore as > 
[ 
[Sees SSeS Se eS i Se > 
考虑 一 个 使 用 NLTK 中 的 线 图 解析 器 来 进行 语法 解 








>>> import nltk 


























5.6 Earley 线 图 解析 算法 
2:3] a 
3:4] 'dog' 
0:0] S -> * NP VP 
0:0] NP -> * NP PP 
0:0] NP -> * Det Noun 
0:0] NP -> * 'I' 
0: NP ex SE -* 
08 S: => NE * VP 
0:1] NP -> NP * PP 
VP => * VP PP 
VP -> * Verb NP 
VP -> * Verb 
:1] Verb -> * 'saw' 
1:2] Verb -> 'saw' * 
1:2] VP -> Verb * NP 
1:2] VP -> Verb * 
0:2] S -> NP VP * 
1:2] VP => VP * PP 
2:2] NP -> * NP PP 
2:2] NP -> * Det Noun 
2:2] Det -> * 'a' 
2:3] Det => 'a' * 
2:3] NP -> Det * Noun 
3:3] Noun -> * 'dog' 
3:4] Noun -> 'dog' * 
2:4] NP -> Det Noun * 
1:4] VP -> Verb NP * 
2:4] NP -> NP * PP 
0:4] S -> NP VP * 
1:4] VP -> VP * PP 
FE 析 的 示例 : 








>>> nltk.parse.chart.demo(2, print times-False, 


a dog', numparses=1) 
* Sentence: 


John saw a dog 


['John', 'saw', 'a', 'dog'] 
* Strategy: Bottom-up 
Pe John saw a dog .| 


trace=1,sent='John saw 
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Nr edges in chart: 33 
(S (NP John) (VP 





考虑 一 个 使 用 了 NLTK 中 的 Stepping 线 图 解析 器 来 进 


>>> import nltk 


>>> nltk.parse.chart.demo(5, print times-False, 


a dog', numparses-2) 
* Sentence: 

John saw a dog 
['John', 


'saw', 'a', 


(Verb saw) 





(NP (Det a) 




















'John' 
'saw' 
bat 
'dog' 


P -> * 


OF WN H 


' John' 
Pom 'John* * 
-> * NP VP 

P -> * NP PP 
=> NP * VP 

P -> NP * PP 
-> * 


D-O-O O-O- CO. 060" "IND ERE OX. 


erb 
erb -> 
* Verb NP 
* Verb 
Verb * NP 
Verb * 
* VP PP 
=> NP VP * 
P-» VP * PP 
et -> * 'g' 


Fat * 


N 








[0] 
ct 
1 
V 


P -> * 





P -> Det * 


oun. => * 


SH TD DD DY DY DN + 


oun -> 
P -> Det Noun * 
-> * NP VP 


P -> * 








P -> Verb NP * 
-» NP * VP 
P -> NP * PP 
-» NP VP * 
P =>- VP * PP 








xung 6 EE 6 





FONNFRFNNN WWNH DNDN D ! 
~ 











(Noun dog)))) 





去 解析 的 示例 : 


和 全; 五 
Ja 





'dog'] 


trace=1,sent='John 


Saw 


* Strategy: 


Stepping 


(top-down vs bottom-up) 


*** SWITCH TO TOP DOWN 

















[ose eee ; 
posee 
[reus 
Eres eT 
> 
> 
> 
> . 
[seco 
[32m > 
[--------- > 
> 
> 
> 
> 。 
二 ] 
一 一 一 一 一 一 一 一 一 > 
E... eeu 
jeje See 
一 一 一 一 一 一 一 一 一 > 
> 
。 。 > 
*** SWITCH TO BOTTOM UP 
> 
。 > 
[MEAE 
(ates ee 
[se > 
[3 ] 
moa Sar SS ea er a se a a ] 
‘ [------------------- > 
[ ] 
e e . 
> 。 
上 > 
*** SWITCH TO TOP DOWN 
> 











[x 


SOO: -O O-O-O NS. ROS 


NO NS NS NO NYDN PM ! 


N N 


NON O MD- RO- NY WN W hx 


D-O O O BR WN FP 











5.6 Earley 线 图 解析 算法 


NP * 
* VP PP 
* Verb NP 
* Verb 
一 > * 








erb -> 
P => Verb * NP 
P -> Verb * 

=> NP VP * 
P-» VP * PP 

P => * NP PP 

P -> * Det Noun 





22aqaqcncgacg 5S 5059059 592072224 


Det -> * 'a' 
Noun -> * 
Det -> 
Noun 一 > 
NP 


N 


"dog! 
ta. * 
"dog! * 
Det * Noun 
P Det Noun * 
VP Verb NP * 
NP NP * PP 

S -> NP VP * 
VP -> VP * 
S -> * NP VP 
S => NP * VP 














VP -> * VP PP 
VP -> * Verb NP 
VP -> * Verb 
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*** SWITCH TO BOTTOM UP 
*** SWITCH TO TOP DOWN 
*** SWITCH TO BOTTOM UP 
*** SWITCH TO TOP DOWN 
*** SWITCH TO BOTTOM UP 
*** SWITCH TO TOP DOWN 
*** SWITCH TO BOTTOM UP 
Nr edges in chart: 37 






































让 我 们 来 看 看 NLTK 中 有 关 Feature 线 图 解析 的 代码 : 

















>>> import nltk 





>>> nltk.parse.featurechart.demo(print times-False,print __ 





grammar-True,parser-nltk.parse.featurechart.FeatureChartParser,sent-'I 
saw a dog!) 








Grammar with 18 productions (start state = S[]) 
S[] -> NP[] VPI[] 
PP -» Prep[] NP[] 
NP -» NP[] PP[] 
VP -» VP[] PP[] 
VP -» Verb[] NP[] 
VP -» Verb[] 
NP -> Det [pl=?x] Noun[pl-2?x] 
NP -» 'John' 
NP cot 
Det -» 'the' 
Det -> 'my' 
Det[-pl] -> 'a' 





Noun[-pl] -> 'dog' 








Noun[-pl] -> 'cookie' 
Verb[] -> 'ate' 
Verb[] -> 'saw' 
Prep[] -> 'with' 
Prep[] -> 'under' 


* FeatureChartParser 
Sentence: I saw a dog 
|. I .saw. a .dog.| 


biss] : A op pour] VI 
i [---] .| [1:2] 'saw' 
|. , [---] .| [2:3] "a! 
[3 ; : [===]: £324]. "dog" 













































































5.6 Earley 线 图 解析 算法 ”101 
[--- 0:1] NP[] -> 'I' * 
[---> 0:1] S[] -> NP[] * VP[] {} 
[---> 0:1] NP => NP[] * PPT] {} 
一 一 一 1:2] Verb[] -> 'saw' * 
一 一 一 > 1:2] VP -> Verb[] * NP[] {} 
一 一 一 1:2] VP -> Verb[] * 
i ===> 1:2] VP -» VP[] * PPI] £} 
| r 0:2] S[] -> NP[] VP[] * 
ee] 2:3] Det[-pl] -> 'a' * 
一 一 一 > 2:3] NP -> Det [pl=?x] * Noun[pl=?x] {?x: False} 
[--- 3:4] Noun[-pl] -> 'dog' * 
SSeS 2:4] NP -» Det[-pl] Noun[-pl] * 
------- > 2:4] S[] -> NP[] * VP[ {} 
ee 再 守 > 2:4] NP -» NP[] * PP[] {} 
[二 1:4] VP -> Verb[] NP[] * 
: [----------- >| [1:4] VP[] -> VP[] * PP[] () 
[ 0:4] S[] -» NP[] VP[] * 
(S[] 
(NP[] I) 
(VP[] (Verb[] saw) (NP[] (Det[-pl] a) (Noun[-pl] do9g)))) 
如 下 是 NLTK 中 用 于 实现 Earley 算法 的 代码 : 
def demo(print times-True, print grammar-False, 
print trees-True, trace-2, 
sent-'I saw John with a dog with my cookie', numparses-5): 
A demonstration of the Earley parsers. 


"mnm 


import s 


from nlt 


ys, time 


k.parse.chart import demo grammar 





# The grammar for ChartParser and SteppingChartParser: 


grammar 


demo grammar () 


if print grammar: 
print("* Grammar") 
print (grammar) 
th sentenc 


# Tokeniz 





sampl 


print("* Sentence:") 


print (sent) 


tokens sent.split() 





print (tokens) 
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print () 


Do the parsing. 





arley = EarleyChartParser(grammar, trace=trace) 





t = time.clock() 

chart = earley.chart_parse (tokens) 

parses = list(chart.parses(grammar.start())) 
t = time.clock()-t 





Print results. 
if numparses: 
assert len(parses)==numparses, 'Not all parses found' 





if print trees: 
for tree in parses: print(tree) 
else: 





print("Nr trees:", len(parses)) 
if print times: 


print("Time:", t) 


if name == ' main  ': demo() 





9.7 小结 





在 本 章 中 ， 我 们 讨论 了 语法 解析 ，Treebank 语料库 的 访问 ， 以 及 上 下 文 无 关 文 法 、 概 
率 上 下 文 无 关 文 法 、CYK 算法 和 Earley 算法 等 的 实现 。 因 此 在 本 章 中 , 我 们 讨论 的 是 NLP 
的 句法 分 析 阶 段 。 

在 下 一 章 中 ， 我 们 将 讨论 语义 分 析 ， 这 是 NLP 的 另 一 个 阶段 。 我 们 将 讨论 使 用 各 种 不 
同方 法 的 NER， 并 获取 用 于 执行 消 歧 任务 的 各 种 方法 。 







































































第 6 章 
语义 分 析 : 意义 很 重要 














语义 分 析 〈 或 者 叫 意义 生成 ) 是 NLP 中 的 任务 之 一 。 它 被 定义 为 确定 字符 或 单词 序列 
意义 的 过 程 ， 其 可 用 于 执行 语义 消 歧 任务 。 


本 章 将 包含 以 下 主题 


e NER. 


















































e 使 用 HMM HY NER 系统 。 

。 使 用 机 器 学 习 工 具 包 训练 NER. 
。 使 用 词性 标注 执行 NER. 

。 使 用 Wordnet 生成 同义词 集 id。 
。 使 用 Wordnet 进行 词义 消 歧 。 





























6. 1 语义 分 析 简 介 




















NLP 指 的 是 在 自然 语言 上 执行 计算 。 语 义 分 析 是 处 理 自然 语言 时 需要 执行 的 步骤 之 一 。 
在 分 析 一 个 给 定 的 句子 时 ， 如 果 已 经 构建 了 句子 的 句法 结构 ， 那 么 这 个 句子 的 语义 分 析 就 
算 完成 了 。 语 义 解 释 指 的 是 将 意义 分 配给 句子 ， 上 下 文 解释 指 的 是 将 逻辑 形式 分 配给 知识 
表示 。 语 义 分 析 的 原 语 或 基本 单位 被 称 为 意义 或 语义 (meaning BK sense). ELIZA 是 处 理 
语义 的 工具 之 一 ， 是 由 Joseph Weizenbaum 在 六 十 年 代 开 发 出 来 的 ， 它 使 用 替换 和 模式 匹 
配 技术 来 分 析 句 子 并 且 为 给 定 的 输入 提供 输出 .MARGIE 是 由 Robert Schank 在 七 十 年 代 开 
发 出 来 的 ， 它 可 以 使 用 11 种 原 语 来 表示 所 有 的 英语 动词 。MARGIE 可 以 解释 一 个 句子 的 
语义 并 借助 原 语 来 表示 


































































































































































































LiE X. MARGIE 之 后 进一步 让 位 于 脚本 的 概念 ， 脚 本 应 用 机 第 
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(Script Applier Mechanism, SAM) 就 是 基于 MARGIE 开发 出 来 的 ， 它 可 以 翻译 来 自 不 同 
语言 的 句子 ， 例 如 英语 、 汉 语 、 俄 语 、 荷 兰 语 和 西班牙 语 等 。 为 了 处 理 文本 数据 ， 使 用 了 





























一 个 Python 库 也 就 是 TextBlob 库 。TextBlob 提供 了 用 于 执行 NLP 任务 的 API， 例 如 词性 














标注 、 名 词 短语 提取 、 文 本 分 类 、 机 器 翻译 、 情 感 分 析 等 。 


























语义 分 析 可 用 于 查询 数据 库 和 检索 信息 。 男 一 个 Python Æ Gensim 可 用 于 执行 文档 索 
































引 、 主 题 建 模 和 相似 性 检索 。Polyglot 是 一 个 支持 多 语言 应 用 的 NLP 工具 ， 它 提供 了 40 









































语言 的 命名 实体 识别 、165 种 语言 的 分 词 、196 种 语言 的 语言 检测 、136 种 语言 的 情感 分 




















































































































































































































析 、16 种 语言 的 词性 标注 、135 种 语言 的 形态 分 析 、137 种 语言 的 姐 入 以 及 69 种 语言 的 音 
TÉ. MontyLingua 是 一 个 用 于 执行 有 关 英 语文 本 语义 解释 的 NLP 工具 ， 它 可 以 从 英文 句子 
中 提取 诸如 动词 、 名 词 、 形 容 词 、 日 期 、 短 语 等 语义 信息 。 

可 以 使 用 逻辑 学 来 正式 地 表示 句子 ,命题 逻辑 中 的 基本 表达 式 或 句子 可 以 用 诸如 P、Q、 
R 等 命题 符号 来 表示 。 命 题 逻辑 中 的 复杂 表达 式 可 以 用 布尔 运算 符 来 表示 。 例 如 ， 为 了 表 
示人 句子 If it is raining, I'll wear a raincoat, Hj 以 使 用 命题 逻辑 : 

e P:Itisraining. 

e Q: I'll wear raincoat. 

e P—Q: If it is raining, I'll wear a raincoat. 

考虑 下 面 NLTK 中 用 于 展示 所 使 用 的 运算 符 的 代码 : 

>>> import nltk 

>>> nltk.boolean ops() 

negation - 

conjunction & 

disjunction | 

implication -> 

equivalence <-> 

合式 公式 (Well-formed Formulas, WFF) 是 使 用 命题 符号 或 命题 符号 与 布尔 运算 符 的 


组 合 构成 的 。 
让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 它 将 逻辑 表达 式 分 解 为 不 同 的 子 类 : 




















>>> import nltk 





>>> input_expr = nltk.sem.Expression.from string 
>>> input expr('X | (Y -> Z)') 
<OrExpression (X | (Y -> Z))> 








>>> input expr('-(X & Y)') 
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<NegatedExpression -(X & Y)» 
>>> input expr('X & Y') 
«AndExpression (X & Y)» 

>>> input expr('X <-> -- X') 
«IffExpression (X <-> --X)» 


为 了 将 True EK False 值 赋值 给 逻辑 表达 式 ， 使 用 了 NLTK FIN valuation MX: 











>>> import nltk 


>>> value = nltk.Valuation([('X', True), ('Y', False), ('Z', True) ]) 
>>> value['Z'] 

True 

>>> domain = set() 


>>> v = nltk.Assignment (domain) 

>>> u = nltk.Model(domain, value) 
>>> print (u.evaluate('(X & Y)', v)) 
False 
>>> print (u.evaluate('-(X & Y)', v)) 


>>> print (u.evaluate('(X & Z)', v)) 








>>> print (u.evaluate('(X | Y)', v)) 











下 面 的 代码 描述 了 NLTK 中 包含 常量 和 谓词 的 一 阶 谓 词 逻辑 : 

















>>> import nltk 


>>> input expr = nltk.sem.Expression.fromstring 





>>> expression = input expr('run(marcus)', type check-True) 


>>> expression.argument 








«ConstantExpression marcus» 
>>> expression.argument.type 
e 


>>> expression.function 





«ConstantExpression run» 


>>> expression.function.type 


«e,?» 
>>> sign = ('run': '«e, t>'} 
>>> expression = input expr('run(marcus)', signature=sign) 





>>> expression. function.type 
e 











f£ NLTK 中 使 用 signature Æ f BUM KRY ANSE H E o 
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考虑 如 下 NLTK 中 的 代码 ， 它 有 助 于 生成 查询 指令 ， 并 可 以 从 数据 库 中 检索 数据 : 








>>> import nltk 
>>> nltk.data.show cfg('grammars/book grammars/sqll.fcfg') 


oe 








EM=(?np + WHE 


fo) ie mae aS, 





RE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp] 
)] -> IV[SEM=?v] PP[SEM=?pp] 

)] -> IV[SEM=?v] AP[SEM=?ap] 
) 
Cc 








-> TV[SEM-?v] NP[SEM-?np] 
?vp1 + ?vp2)] -> VP[SEM=?vp1] Conj[SEM-?c] VP[SEM-?vp2] 
?det + ?n)] -»Det[SEM-?det] N[SEM=?n] 
?n + ?pp) -> N[SEM=?n] PP[SEM=?pp] 
EM=?n] -> N[SEM=?n] | CardN[SEM=?n] 
ardN[SEM='1000'] -> '1,000,000' 
PP[SEM=(?p + ?np) -> P[SEM=?p] NP[SEM=?np] 
P[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp] 
try="greece"'] -> 'Greece' 


e 
2Y 十 Tap 
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P[SEM-'Country-2"china"'] -> 'China' 
Det[SEM-'SELECT'] -> 'Which' | 'What' 
Conj[SEM-'AND'] -> 'and' 

N[SEM-'City FROM city table'] -> 'cities' 
N[SI 
IV[SEM=''] -> 'are' 

TV[SEM=''] -> 'have' 

A -> 'located' 

P[SEM=''] -> 'in' 

P[SEM='>'] -> 'above' 

>>> from nltk import load parser 
































Gl 


-'Population'] -> 'populations' 





>>> test = load parser('grammars/book grammars/sqll.fcfg') 
>>> q-" What cities are in Greece" 

>>> t = list(test.parse(q.split())) 

>>> ans = t[0].1abel()['SEM'] 

>>> ans = [s for s in ans if s] 











>>> q = ' '.join(ans) 

>>> print (q) 

CT City FROM city table WHERE Country="greece" 

>>> from nltk.sem import chat80 

>>> r = chat80.sql_query('corpora/city database/city.db', q) 








n 
T 
tt 
r 




















>>> for p in r: 
print(p[0], end-" ") 


athens 
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6.1.1 NER 简介 


的 过 程 。 而 且 ， 这 些 命名 实体 被 分 成 了 不 同 的 类 别 ， 例 如 人 人 名、 地 名 、 机 构 名 等 。 


体 ) 
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命名 实体 识别 (Named entity recognition, NER) 是 定位 文档 中 的 专 有 名 词 或 命名 实体 
口 











由 IIIT-Hyderabad IJCNLP 2008 所 定义 的 NER 标签 集 有 12 个 ， 描 述 如 下 : 

































































SNO. | Named entity tag | Meaning 

1 NEP Name of Person 

2 NED Name of Designation 
3 NEO Name of Organization 
4 NEA Name of Abbreviation 
5 NEB Name of Brand 

6 NETP Title of Person 

7 NETO Title of Object 

8 NEL Name of Location 

9 NETI Time 

10 NEN Number 

11 NEM Measure 

12 NETE Terms 









































NER 的 应 用 之 一 是 信息 提取 。 在 NLTK 中 ， 我 们 可 以 通过 存储 元 组 〈 实 体 ， 关 系 ， 实 














来 执行 信息 提取 任务 ， 之 后 就 可 以 提取 到 实体 值 。 
考虑 一 个 NLTK 中 的 示例 ， 它 展示 了 如 何 进行 信息 提取 : 








>>> import nltk 

>>> locations-[('Jaipur', 'IN', 'Rajasthan'),('Ajmer', 'IN', 
'Rajasthan'), ('Udaipur', 'IN', 'Rajasthan'),('Mumbai', 'IN', 
'Maharashtra'),('Ahmedabad', 'IN', 'Gujrat')] 


>>> q = [xl for (xl, relation, x2) in locations if x2--'Rajasthan'] 


>>> print (q) 
['Jaipur', 'Ajmer', 'Udaipur'] 



























































WHE nttp://nlp.stanford.edu/software 来 下 载 该 标注 器 模型 。 


使 用 nltk.tag.stanford 模块 以 便 可 以 使 用 斯 坦 福 标注 器 来 执行 NER。 我 们 可 以 
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让 我 们 来 看 看 如 下 NLTK 中 的 示例 ， 它 使 用 了 斯 坦 福 标注 器 用 于 执行 NER: 




















>>> from nltk.tag import StanfordNERTagger 








>>> sentence = StanfordNERTagger('english.all.3class.distsim.crf.ser. 


gz") 
>>> sentence.tag('John goes to NY'.split()) 





[('John', 'PERSON'), ('goes', 'O'), ('to', 'O'),('NY', 'LOCATION')] 




















NLTK 提供 了 一 个 已 经 训练 好 的 可 用 于 识别 命名 实体 的 分 类 器 。 




















通过 使 用 函数 











nltk.ne.chunk()， 可 以 识别 一 个 文本 中 的 命名 实体 。 如 果 参 数 binary 被 置 为 tue， 则 
可 以 识别 出 命名 实体 并 使 用 NE 标记 来 标注 它们 ; 否则 ， 就 使 用 诸如 PERSON. GPE 和 


























ORGANIZATION 等 标记 来 标注 命名 实体 。 


证 我 们 来 看 看 如 下 用 于 识别 命名 实体 的 代码 ， 如 果 命 名 实体 存在 ， 就 
注 它 们 : 








>>> import nltk 

>>> sentencesl = nltk.corpus.treebank.tagged_sents() [17] 
>>> print (nltk.ne chunk(sentencesl, binary=True) ) 
(S 

The/DT 

total/NN 

of/IN 

18/CD 

deaths/NNS 

from/IN 

malignant/JJ 





mesothelioma/NN 
pe 

lung/NN 

cancer/NN 

and/CC 

asbestosis/NN 

was/VBD 

far/RB 

higher/JJR 

than/IN 
*/-NONE- 

expected/VBN 
*?* /-NONE- 
Ee 

the/DT 

researchers/NNS 






































J NE 标记 来 标 
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said/VBD 
0 /-NONE- 
*T*-1/-NONE- 
shes) 


>>> sentences2 = nltk.corpus.treebank.tagged_sents() [7] 








>>> print (nltk.ne chunk(sentences2, binary=True) ) 
(S 

A/DT 

(NE Lorillard/NNP) 

spokewoman/NN 
said/VBD 

rly 

yo 

This/DT 
is/VBZ 
an/DT 
old/JJ 
story/NN 

ial) 
>>> print(nltk.ne chunk (sentences2)) 
(S 

A/DT 

(ORGANIZATION Lorillard/NNP) 
spokewoman/NN 
said/VBD 

rly 

vy 

This/DT 
is/VBZ 
an/DT 
old/JJ 
story/NN 

sha) 


考虑 NLTK 中 另 一 个 可 用 于 识别 命名 实体 的 示例 : 








>>> import nltk 
>>> from nltk.corpus import con112002 
>>> for documents in conl12002.chunked_sents('ned.train') [25]: 


print (documents) 


(PER Vandenbussche/Adj) 
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T 
x8 


'zelf', 'Pron') 
'besloot', 'V') 
'dat', 'Conj') 
'het', 'Art') 
'hof', 'N') 


( 

( 

( 

( 

( 

( 

( 

RN DU , 'Adj') 
('zeden', 'N') 
('uit', 'Prep!) 
('het', 'Art') 
('verleden', 'N') 

( 
( 
( 
( 
( 


rn "Punc! ) 





'heeft', 'V') 
'willen', 'V') 
'veroordelen', 'V') 
'Punc') 


分 块 器 是 一 个 用 于 将 纯 文 本 分 割 为 语义 相关 的 单词 序列 的 程序 。 为 了 在 NLTK 中 执行 

NER, 我 们 需要 使 用 默认 的 分 块 器 。 默认 分 块 器 是 指 基 于 在 ACE 语料库 上 训 练 过 的 分 类 器 

的 分 块 器 。 其 他 分 块 器 已 经 在 解析 过 的 或 已 分 块 的 NLTK 语料库 上 被 训练 过 了 。 这些 NLTK 
分 块 器 涉及 的 语言 如 下 : 


e Dutch (荷兰 语 )。 













































































e Spanish (西班牙 语 )。 





e Portuguese (葡萄 牙 语 )。 
e English (2218). 
考虑 NLTK 中 的 另 一 个 示例 , 它 用 于 识别 命名 实体 并 将 其 划分 为 不 同 的 命名 实体 类 别 : 











>>> import nltk 





>>> sentence = "I went to Greece to meet John"; 
>>> tok=nltk.word tokenize (sentence) 

>>> pos tag-nltk.pos tag(tok) 

>>> print(nltk.ne chunk(pos tag)) 





I/PRP 
went/VBD 
to/TO 
(GPE Greece/NNP) 
to/TO 
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meet/VB 
PERSON John/NNP) ) 


6.1.2 ”使 用 隐 马 尔 科 夫 模 型 的 NER 系统 


HMM 是 关于 NER 的 流行 统计 学 方法 之 一 。HMM 被 定义 为 一 个 随机 有 限 状 态 自动 机 
(Stochastic Finite State Automaton，SFSA )， 它 由 与 确定 的 概率 分 布 相关 联 的 有 限 状 态 集 组 
成 ， 状 态 是 不 可 观察 或 是 隐蔽 的 ,。 HMM 生成 最 优 的 状态 序列 作为 输出 。HMM 基于 马尔 科 
夫 链 属性 。 依 据 马尔 科 夫 链 属 性 ， 下 一 个 状态 发 生 的 概率 取决 于 上 一 个 状态 ， 这 是 最 简单 
的 实现 方法 。HMM 的 缺点 是 它 需要 进行 大 量 的 训练 并 且 不 能 用 于 大 的 依赖 。HMM 包括 以 
下 内 容 : 


。 状态 集 5S, 其 中 |S|=N。 这 里 ,NN 指 的 是 状态 的 总 数 。 

。 初始 状态 SO. 

。 输出 字符 表 O， 其 中 |O|=k。 这 里 ，k 指 的 是 输出 字母 的 总 数 。 
。 转移 概率 4。 

。 发 射 概率 B. 

。 初始 状态 概率 r。 
HMM 可 以 由 如 下 的 元 组 呈 
启动 概率 或 初始 状态 概率 可 以 认为 是 一 个 特定 的 标记 首次 在 句 中 出 现 的 概率 。 


转移 概率 (4=aij) 指 的 是 在 给 定 当 前 特定 标记 i 出现 的 情况 下 下 一 个 标记 j 出 现 的 
概率 。 


A=aij= 从 状态 si 到 sj 的 转换 的 数量 /从 状态 开始 转换 的 数量 。 
发 射 概率 (B=bj(0)) 指 的 是 在 给 定 一 个 状态 j 的 情况 下 输出 序列 出 现 的 概率 。 
B=bj(k)=TEARAS j 时 输出 观察 符号 k 的 概率 /在 状态 j 时 预期 观察 值 出 现 的 次 数 。 
Baum Welch 算法 用 于 找到 HMM 参数 的 最 大 似 然 值 和 后 验 模 型 估计 。 前 向 -后 向 算法 
于 在 给 定 一 个 输出 或 观察 序列 的 情况 下 找到 所 有 隐藏 状态 变量 的 后 验 边缘 概率 。 
使 用 HMM 来 执行 NER 有 三 个 步 又: 注释 、HMM 训练 和 HMM 测试 。 注 释 模 块 将 
原始 文本 转换 为 注释 或 可 训练 的 数据 。 在 HMM 训练 环节 ， 我 们 要 计算 HMM 参数 ， 包 
括 启动 概率 、 转 移 概 率 和 发 射 概率 。 在 HMM 测试 环节 ， 使 用 了 Viterbi 算法 以 便 找 出 最 
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佳 标记 序列 。 


考虑 一 个 NLIK 中 有 关 使 用 HMM 进行 分 块 的 示例 。 通 过 分 块 ， 我 们 可 以 获得 NP 和 
VP 组 块 。NP 组 块 可 以 进一步 被 处 理 以 便 获取 专 有 和 名词 或 命名 实体 : 





Dun 
X8 



















































































>>> import nltk 
>>> nltk.tag.hmm.demo pos() 


HMM POS tagging demo 


E 


[raining HMM... 


Ps 


Testing... 





Test: the/AT fulton/NP county/NN grand/JJ jury/NN said/VBD friday/ 

NR an/AT investigation/NN of/IN atlanta's/NP$ recent/JJ primary/NN 
election/NN produced/VBD ``/`` no/AT evidence/NN ''/'' that/CS any/DTI 
irregularities/NNS took/VBD place/NN ./. 


Untagged: the fulton county grand jury said friday an investigation of 
atlanta's recent primary election produced ~*~ no evidence '' that any 
irregularities took place 


HMM-tagged: the/AT fulton/NP county/NN grand/JJ jury/NN said/ 

VBD friday/NR an/AT investigation/NN of/IN atlanta's/NP$ recent/ 

JJ primary/NN election/NN produced/VBD ``/`` no/AT evidence/NN ''/'' 
that/CS any/DTI irregularities/NNS took/VBD place/NN ./. 








Entropy: 18.7331739705 


Test: the/AT jury/NN further/RBR said/VBD in/IN term-end/NN 
presentments/NNS that/CS the/AT city/NN executive/JJ committee/NN ,/, 
which/WDT had/HVD over-all/JJ charge/NN of/IN the/AT election/NN ,/, 

^/^" deserves/VBZ the/AT praise/NN and/CC thanks/NNS of/IN the/AT 
city/NN of/IN atlanta/NP ''/'' for/IN the/AT manner/NN in/IN which/WDT 
the/AT election/NN was/BEDZ conducted/VBN ./. 








Untagged: the jury further said in term-end presentments that the 
city executive committee , which had over-all charge of the election 
, deserves the praise and thanks of the city of atlanta '' for the 





manner in which the election was conducted 


HMM-tagged: the/AT jury/NN further/RBR said/VBD in/IN term-end/AT 
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presentments/NN that/CS the/AT city/NN executive/NN committee/NN ,/, 
which/WDT had/HVD over-all/VBN charge/NN of/IN the/AT election/NN ,/, 

^/^" deserves/VBZ the/AT praise/NN and/CC thanks/NNS of/IN the/AT 
city/NN of/IN atlanta/NP ''/'' for/IN the/AT manner/NN in/IN which/WDT 
the/AT election/NN was/BEDZ conducted/VBN ./. 








Entropy: 27.0708725519 


Test: the/AT september-october/NP term/NN jury/NN had/HVD been/BEN 
charged/VBN by/IN fulton/NP superior/JJ court/NN judge/NN durwood/ 

NP pye/NP to/TO investigate/VB reports/NNS of/IN possible/JJ ``/`` 
irregularities/NNS ''/'' in/IN the/AT hard-fought/JJ primary/NN which/ 
WDT was/BEDZ won/VBN by/IN mayor-nominate/NN ivan/NP allen/NP jr./NP 
En 














I 





Untagged: the september-october term jury had been charged by fulton 
superior court judge durwoodpye to investigate reports of possible 





irregularities '' in the hard-fought primary which was won by mayor- 


nominate ivanallenjr. 





HMM-tagged: the/AT september-october/JJ term/NN jury/NN had/HVD been/ 
BEN charged/VBN by/IN fulton/NP superior/JJ court/NN judge/NN durwood/ 
TO pye/VB to/TO investigate/VB reports/NNS of/IN possible/JJ ^^/^^ 
i 
W 





rregularities/NNS ''/'' in/IN the/AT hard-fought/JJ primary/NN which/ 
DT was/BEDZ won/VBN by/IN mayor-nominate/NP ivan/NP allen/NP jr./NP 
ahs 








Entropy: 33.8281874237 





Test: ``/`` only/RB a/AT relative/JJ handful/NN of/IN such/JJ reports/ 
NNS was/BEDZ received/VBN ''/'' ,/, the/AT jury/NN said/VBD ,/, ^^/^^ 
considering/IN the/AT widespread/JJ interest/NN in/IN the/AT election/ 
NN ,/, the/AT number/NN of/IN voters/NNS and/CC the/AT size/NN of/IN 
this/DT city/NN ''/'' ./. 





Untagged: `` only a relative handful of such reports was received '' , 
the jury said , `` considering the widespread interest in the election 





, the number of voters and the size of this city '' 








HMM-tagged: ``/`` only/RB a/AT relative/JJ handful/NN of/IN such/JJ 
reports/NNS was/BEDZ received/VBN ''/'' ,/, the/AT jury/NN said/VBD 
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,/, ./.. considering/IN the/AT widespread/JJ interest/NN in/IN the/AT 
election/NN ,/, the/AT number/NN of/IN voters/NNS and/CC the/AT size/ 
NN of/IN this/DT city/NN ''/'' ./. 





Entropy: 11.4378198596 


Test: the/AT jury/NN said/VBD it/PPS did/DOD find/VB that/CS many/AP 
of/IN georgia's/NP$ registration/NN and/CC election/NN laws/NNS ``/`` 
are/BER outmoded/JJ or/CC inadequate/JJ and/CC often/RB ambiguous/JJ 
M Ai: us 





Untagged: the jury said it did find that many of georgia's 
registration and election laws ~*~ are outmoded or inadequate and often 
ambiguous '' 


HMM-tagged: the/AT jury/NN said/VBD it/PPS did/DOD find/VB that/CS 
many/AP of/IN georgia's/NP$ registration/NN and/CC election/NN laws/ 
NNS ``/`` are/BER outmoded/VBG or/CC inadequate/JJ and/CC often/RB 
ambiguous/VB ''/'' ./. 








Entropy: 20.8163623192 


Test: it/PPS recommended/VBD that/CS fulton/NP legislators/NNS act/VB 

^/^^ to/TO have/HV these/DTS laws/NNS studied/VBN and/CC revised/VBN 
to/IN the/AT end/NN of/IN modernizing/VBG and/CC improving/VBG them/ 
PROM "Xt ad: 


Untagged: it recommended that fulton legislators act ~*~ to have these 
laws studied and revised to the end of modernizing and improving them 


HMM-tagged: it/PPS recommended/VBD that/CS fulton/NP legislators/ 

NNS act/VB ``/`` to/TO have/HV these/DTS laws/NNS studied/VBD and/CC 
revised/VBD to/IN the/AT end/NN of/IN modernizing/NP and/CC improving/ 
VBG them/PPO ''/'' ./. 


Entropy: 20.3244921203 





Test: the/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/NN of/ 
IN other/AP topics/NNS ,/, among/IN them/PPO the/AT atlanta/NP and/ 
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CC fulton/NP county/NN purchasing/VBG departments/NNS which/WDT it/ 
PPS said/VBD ``/`` are/BER well/QL operated/VBN and/CC follow/VB 
generally/RB accepted/VBN practices/NNS which/WDT inure/VB to/IN the/ 
AT best/JJT interest/NN of/IN both/ABX governments/NNS ''/'' ./. 





Untagged: the grand jury commented on a number of other topics , 





among them the atlanta and fulton county purchasing departments which 





it said `` are well operated and follow generally accepted practices 





which inure to the best interest of both governments '' 


HMM-tagged: the/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/ 
NN of/IN other/AP topics/NNS ,/, among/IN them/PPO the/AT atlanta/ 

NP and/CC fulton/NP county/NN purchasing/NN departments/NNS which/WDT 
it/PPS said/VBD ``/`` are/BER well/RB operated/VBN and/CC follow/VB 
generally/RB accepted/VBN practices/NNS which/WDT inure/VBZ to/IN the/ 
AT best/JJT interest/NN of/IN both/ABX governments/NNS ''/'' ./. 











Entropy: 31.3834231469 


Untagged: merger proposed 


HMM-tagged: merger/PPS proposed/VBD 





Entropy: 5.6718203946 


Test: however/WRB ,/, the/AT jury/NN said/VBD it/PPS believes/VBZ 

^/^^ these/DTS two/CD offices/NNS should/MD be/BE combined/VBN to/TO 
achieve/VB greater/JJR efficiency/NN and/CC reduce/VB the/AT cost/NN 
of/IN administration/NN ''/'' ./. 








Untagged: however , the jury said it believes '' these two offices 





should be combined to achieve greater efficiency and reduce the cost 





of administration '' 


HMM-tagged: however/WRB ,/, the/AT jury/NN said/VBD it/PPS believes/ 
VBZ ^^/^" these/DTS two/CD offices/NNS should/MD be/BE combined/VBN 
to/TO achieve/VB greater/JJR efficiency/NN and/CC reduce/VB the/AT 
cost/NN of/IN administration/NN ''/'' ./. 
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T 
HE 


Entropy: 8.27545943909 





Test: the/AT city/NN purchasing/VBG department/NN ,/, the/AT jury/NN 
said/VBD ,/, ^^/^" is/BEZ lacking/VBG in/IN experienced/VBN clerical/ 
JJ personnel/NNS as/CS a/AT result/NN of/IN city/NN personnel/NNS 
policies/NNS ''/'' ./. 





Untagged: the city purchasing department , the jury said, `` is 





lacking in experienced clerical personnel as a result of city 


personnel policies '' 





HMM-tagged: the/AT city/NN purchasing/NN department/NN ,/, the/ 

AT jury/NN said/VBD ,/, ^^/^^" is/BEZ lacking/VBG in/IN experienced/ 
AT clerical/JJ personnel/NNS as/CS a/AT result/NN of/IN city/NN 
personnel/NNS policies/NNS ''/'' ./. 











Entropy: 16.7622537278 


accuracy over 284 tokens: 92.96 














可 以 认为 NER 标注 器 的 结果 是 一 个 回答 ， 人 们 的 解释 称 作 答案 要 点 。 因 此 ， 我 们 提供 
了 如 下 定义 : 


e Correct: 如 果 回 答 与 答案 要 点 完全 相同 。 

答 与 答案 要 点 不 同 。 

e Missing: 如 果 答 案 要 点 被 标注 ， 但 回答 未 被 标注 。 
。 Spurious: 如 果 回 答 被 标注 ， 但 答案 要 点 未 被 标注 。 
过 使 用 以 下 参数 可 以 评价 一 个 基于 NER 的 系统 的 性 能 : 


e Precision (P): 定义 如 下 : 

















e Incorrect: 如 果 


H 




















T 




















" 


P=Correct/ (Correct-Incorrect* Missing) 
e Recall R): 定义 如 下 : 

R=Correct/ (Correct+Incorrect+Spurious) 
e F-Measure: 定义 如 下 : 


F-Measure = (2*PREC*REC)/(PRE+REC) 
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6.1.3 ”使 用 机 硕 学 习 工 具 包 训练 NER 

















可 以 使 用 以 下 方法 执行 NER: 























。 基于 规则 的 或 手工 的 方法 : 





O 


O 


























列表 查找 方法 。 


语言 学 方法 。 

















。 基于 机 器 学 习 的 方法 或 自动 化 方法 : 


O 


Oo 


O 


O 


O 





隐 马 尔 科 夫 模型 。 

最 大 炉 马尔 科 夫 模型 。 
条 件 随机 场 。 
支持 向 量 机 。 
决策 树 。 


















































实践 表明 ， 基 于 机 器 学 习 的 方法 优 于 基于 规则 的 方法 。 此 外 ， 如 果 使 用 了 基于 规则 的 























和 基于 机 器 学 习 的 方法 的 组 合 ， 那 么 NER 的 性 能 也 将 提升 。 





6.1.4 使 用 词性 标注 执行 NER 


通过 使 用 词性 标注 可 以 执行 NER。 可 使 用 的 词性 标记 如 下 所 示 〔 可 访问 https: // 
www.ling.upenn.edu/courses/Fall 2003/ling001/penn_treebank_pos.html): 











Tag | Description 





CC | Coordinating conjunction 





CD | Cardinal number 





DT | Determiner 





EX | Existential there 





FW | Foreign word 





IN | Preposition or subordinating conjunction 





JJ Adjective 





JJR | Adjective, comparative 








JJS | Adjective, superlative 
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LS List item marker 
MD Modal 
NN Noun, singular or mass 
NNS Noun, plural 
NNP Proper noun, singular 
NNPS | Proper noun, plural 





PDT Predeterminer 





POS Possessive ending 





PRP Personal pronoun 





PRP$ Possessive pronoun 





RB Adverb 





RBR Adverb, comparative 





RBS Adverb, superlative 





RP Particle 





SYM Symbol 











TO To 
UH Interjection 
VB Verb, base form 





VBD Verb, past tense 





VBG Verb, gerund or present participle 





VBN Verb, past participle 





VBP Verb, non-3rd person singular present 





VBZ Verb, 3rd person singular present 





WDT Wh-determiner 





WP Wh-pronoun 





WP$ Possessive wh-pronoun 











WRB Wh-adverb 

















如 果 执 行 了 词性 标注 ， 那么 使 
标识 符 就 是 命名 实体 。 


考虑 如 下 NLTK 中 的 示例 ， 它 














se Fil 





aoe 


词性 信息 就 可 以 识别 出 命名 实体 。 月 





来 执行 NER: 











H NNP 标记 标注 


ER 
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>>> import nltk 

>>> from nltk import pos tag, word tokenize 

>>> pos tag(word tokenize("John and Smith are going to NY and 
Germany")) 

[('John', 'NNP'), ('and', 'CC'), ('Smith', 'NNP'), ('are', 'VBP'), 
('going', 'VBG'), ('to', 'TO'), ('NY', 'NNP'), ('and', 'CC'), 
('Germany', 'NNP')] 








在 这 里 ， 命 名 实体 是 John. Smith. NY 以 及 Germany， 因 为 它们 被 标注 了 NNP 标记 。 


证 我 们 来 看 看 另 一 个 NLTK 中 的 示例 ， 其 中 执行 了 词性 标注 并 且 词 性 标记 信息 被 用 于 
识别 命名 实体 : 
























































>>> import nltk 

>>> from nltk.corpus import brown 

>>> from nltk.tag import UnigramTagger 

>>> tagger = UnigramTagger (brown.tagged_sents (categories='news') 
[:700]) 

>>> sentence = ['John','and','Smith', 'went','to', 'NY','and','Germany'] 
>>> for word, tag in tagger.tag(sentence): 

print (word, '->',tag) 


John -> NP 
and -> CC 
Smith -> None 
went -> VBD 


Co-=> “TO 
NY -> None 
and -> CC 


Germany -> None 

















在 这 里 ， 单 词 John 已 经 被 标注 了 NP 标记 ， 因 此 它 被 识别 为 命名 实体 。 这 里 的 一 些 标 
识 符 用 None 标记 标注 是 因为 这 些 标 识 符 还 没有 经 过 训练 。 




















6.2 使 用 Wordnet 生成 同义词 集 id 

















Wordnet 可 以 定义 为 一 个 英语 词汇 数据 库 。 通 过 使 用 同义词 集 ， 可 以 找到 单词 之 间 的 
概念 依存 ， 例 如 上 位 词 、 同 义 词 、 反 义 词 和 下 位 词 。 


考虑 如 下 NLTK 中 用 于 生成 同义词 集 的 代码 : 
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def all synsets(self, pos=None): 


"""Tterate over all synsets with a given part of speech tag. 


If no pos is specified, 
will be loaded. 
"nw 
if pos is None: 
pos tags = self. FILEMAP.keys () 











else: 
pos tags = [pos] 
cache = self. synset offset cach 
from pos and line = self. synset from pos and line 





f generate all synsets for each part of speech 
for pos tag in pos tags: 


all synsets for all parts of speech 


# Open the file for reading. Note that we can not re-use 








# the file pointers from self. data file map here, becaus 


# we're defining an iterator, 











and those file pointers 














might 
# be moved while we're not looking. 
if pos_tag == ADJ_SAT: 
pos_tag = ADJ 
fileid = 'data.$s' $ self. FILEMAP[pos tag] 
data_file = self.open(fileid) 
bry: 
# generate synsets for each line in the POS file 
offset = data file.tell() 
line = data_file.readline() 
while line: 
if not line[0].isspace(): 
if offset in cache[pos tag]: 
* S if the synset is cached 
synset = cache[pos tag] [offset] 
else: 
# Otherwise, parse the lin 
synset = from pos and line(pos tag, line) 
cache[pos tag][offset] = synset 
# adjective satellites are in the same file as 
# adjectives so only yield the synset if it's 
actually 


# a satellite 





6.2 ”使 用 Wordnet 生成 同义词 集 id 





if synset. pos == ADJ SAT: 
yield synset 


# for all other POS tags, yield all synsets 
(this means 
# that adjectives also include adjective 
satellites) 
else: 
yield synset 
offset = data file.tell() 
line = data_file.readline() 





# close the extra file handle we opened 
except: 

data file.close() 

raise 
else: 

data file.close() 











让 我 们 看 看 如 下 NLTK 中 的 代码 ， 它 通过 使 用 同义词 集 来 查找 单词 : 




















a 














>>> import nltk 

>>> from nltk.corpus import wordnet 

>>> from nltk.corpus import wordnet as wn 

>>> wn.synsets('cat!) 

[Synset('cat.n.01'), Synset('guy.n.01'), Synset('cat.n.03'), 

Synset('kat.n.01'), Synset('cat-o'-nine-tails.n.01'), 

Synset('caterpillar.n.02'), Synset('big cat.n.01'), 

Synset('computerized tomography.n.01'), Synset('cat.v.01'), 
( 


Synset('vomit.v.01')] 





>>> wn.synsets('cat', pos-wn.VERB) 





[Synset('cat.v.01'), Synset('vomit.v.01')] 
>>> wn.synset('cat.n.01') 
Synset('cat.n.01') 
































XH, cat.n.01 表示 单词 cat 属于 名 词类 别 并 且 只 有 一 种 含义 的 cat FE: 


>>> print (wn.synset ('cat.n.01') .definition() ) 





feline mammal usually having thick soft fur and no ability to roar: 
domestic cats; wildcats 


>>> len(wn.synset('cat.n.01').examples()) 
0 
>>> wn.synset('cat.n.01').lemmas() 


[Lemma('cat.n.01.cat'), Lemma('cat.n.0l.true cat')] 
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>>> [str(lemma.name()) for lemma in wn.synset('cat.n.01').lemmas()] 
['cat', 'true cat'] 
>>> wn.lemma('cat.n.01.cat').synset() 


Synset('cat.n.01') 















































让 我 们 来 看 看 如 下 NLTK 中 的 示例 ， 它 描述 了 同义词 集 以 及 使 用 了 ISO 639 语种 代码 














H 


的 开放 多 语言 Wordnet 的 用 法 


>>> import nltk 

>>> from nltk.corpus import wordnet 

>>> from nltk.corpus import wordnet as wn 
>>> sorted(wn.langs() ) 


['als*, "arb', "cat", necmi y 'dan', teng" "'eus', "fds', "'fin', “fra 


, 


Ufre', *glg', 'heb', tind"; ita’; "Jpn, 'nno', 'nob', '"pol'!, "por'; 


'spa', 'tha', 'zsm'] 


>>> wn.synset('cat.n.01').lemma names('ita') 
'gatto'] 
>>> sorted(wn.synset('cat.n.01').lemmas('dan')) 


Lemma ('cat.n.01.kat'), Lemma('cat.n.01.mis'), Lemma('cat.n.01. 
missekat')] 
>>> sorted(wn.synset('cat.n.01').lemmas('por')) 





Lemma('cat.n.01.Gato-doméstico'), Lemma('cat.n.01.Gato doméstico'), 








Lemma('cat.n.01.gato'), Lemma('cat.n.01.gato')] 

>>> len(wordnet.all lemma names(pos-'n', lang-'jpn')) 
66027 

>>> cat = wn.synset('cat.n.01') 

>>> cat.hypernyms () 

Synset('feline.n.01')] 

>>> cat.hyponyms () 

Synset('domestic cat.n.01'), Synset('wildcat.n.03')] 
>>> cat.member holonyms () 

] 


>>> cat.root hypernyms() 








Synset('entity.n.01')] 
>>> wn.synset('cat.n.01').lowest common hypernyms (wn 
synset('dog.n.01')) 








Synset('carnivore.n.01')] 


6.3 {SFA Wordnet X£fT 13] iE Ux 














Til SO EEF Ata] Te SCE SOR CAT V I EXE E BESHEH ER] Bs HTB) B jg BRE 




















6.3 ”使 用 Wordnet 进行 词义 消 歧 


以 下 是 使 用 Python 技术 实现 的 词义 消 疏 或 WSD 任务 : 








。 Lesk 算法 : 
o 原始 的 Lesk 算法 。 






































o 余弦 Lesk 算法 (使 用 余弦 定理 而 不 是 原始 计数 来 计 




















Url 
n] 








o 简单 的 Lesk 算法 (例如 定义 上 位 词 1 














o 自 适应 的 /可 扩展 的 Lesk 算法 。 
o 增强 的 Lesk 算法 。 
。 最 大 相似 性 : 
o 信息 内 容 。 
o ”路径 相 似 性 。 
。 有 指导 的 WSD: 
o It Makes Sense (IMS). 
o 支持 向 量 机 WSD. 
。 向 量 空间 模型 : 


o 主题 模型 ，LDA。 












































o LSI/LSA. 
o NMF. 

。 基于 图 表 的 模型 : 
o Babelfly. 





o UKB。 
。 基准 : 

o 随机 含义 。 

o 最 高 引 理 计数 。 


o 第 一 NLTK X. 























NLTK 中 的 Wordnet 语义 相似 度 涉及 以 下 多 











法 : 


+ 下 位 词 )。 
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Resnik Score 相似 度 算 法 : 在 比较 两 个 标识 符 时 ， 返 回 一 个 决定 两 个 标识 符 相 似 度 


e 
的 得 分 (最 小 公共 包含 ，Least Common Subsumer). 








S 


































































































。 Wu-Palmer 相似 度 算法 : 基于 两 个 概念 的 深度 和 最 小 公共 包含 来 定义 两 个 标识 符 
之 间 的 相似 度 。 

e Path Distance 相似 度 算法 : 基于 在 is-a 分 类 结构 中 计算 的 最 短 距离 来 决定 两 个 标识 
符 的 相似 度 。 

e Leacock Chodorow 相似 度 算法 : 基于 最 短路 径 和 语义 在 分 类 结构 中 的 最 大 深度 返 

回 一 个 相似 度 得 分 。 

。 Lin 相似 度 算法 : 基于 最 小 公共 包含 的 信息 内 容 和 两 个 输入 的 同义词 集 返 回 一 个 相 
似 度 得 分 。 

e Jiang-Conrath 相似 度 算 法 : 基于 最 小 公共 包含 的 内 容 信 息 和 两 个 输入 的 同义词 集 
返回 一 个 相似 度 得 分 。 




















考虑 如 下 NLTK 中 用 于 描述 路 径 相似 性 的 代码 示例 : 

















>>> import nltk 

>>> from nltk.corpus import wordnet 

>>> from nltk.corpus import wordnet as wn 
>>> lion = wn.synset('lion.n.01') 

>>> cat = wn.synset('cat.n.01') 

>>> lion.path_similarity(cat) 

0:25 





考虑 如 下 NLTK 中 用 于 描述 Leacock Chodorow 相似 性 的 代码 示例 : 




















>>> import nltk 

>>> from nltk.corpus import wordnet 

>>> from nltk.corpus import wordnet as wn 
>>> lion = wn.synset('lion.n.01") 

>>> cat = wn.synset('cat.n.01') 

>>> lion.lch similarity (cat) 
2.2512917986064953 








考虑 如 下 NLTK 中 用 于 描述 Wu-Palmer 相似 性 的 代码 示例 : 




















>>> import nltk 
>>> from nltk.corpus import wordnet 
>>> from nltk.corpus import wordnet as wn 
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>>> lion = wn.synset('lion.n.01') 
>>> cat = wn.synset('cat.n.01') 
>>> lion.wup similarity (cat) 
0.896551724137931 





























考虑 如 下 NLTK 中 用 于 描述 Resnik 相似 性 、Lin 相似 性 和 Jiang-Conrath 相似 性 的 代码 
示例 : 


>>> import nltk 
>>> from nltk.corpus import wordnet 

>>> from nltk.corpus import wordnet as wn 
>>> from nltk.corpus import wordnet ic 


>>> brown ic = wordnet ic.ic('ic-brown.dat') 


>>> semcor ic = wordnet ic.ic('ic-semcor.dat') 





>>> from nltk.corpus import genesis 
>>> genesis ic = wn.ic(genesis, False, 0.0) 
>>> lion = wn.synset('lion.n.01') 





>>> cat = wn.synset('cat.n.01') 

>>> lion.res similarity(cat, brown ic) 
8.663481537685325 
>>> lion.res similarity(cat, genesis ic) 
7.339696591781995 
>>> lion.jcn_similarity(cat, brown_ic) 
0.36425897775957294 
>>> lion.jcn similarity(cat, genesis ic) 
0.3057800856788946 
>>> lion.lin similarity(cat, semcor ic) 
0.8560734335071154 























让 我 们 来 看 看 如 下 NLTK 中 基于 Wu-Palmer 相似 性 和 路 径 距 离 相似 性 的 代码 : 

















from nltk.corpus import wordnet as wn 


def getSenseSimilarity (worda,wordb): 


"mnm 


find similarity between word senses of two words 


"mmm 


wordasynsets = wn.synsets (worda) 


wordbsynsets 


wn.synsets (wordb) 
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synsetnamea = [wn.synset(str(syns.name)) for syns in wordasynsets] 
synsetnameb = [wn.synset(str(syns.name)) for syns in wordbsynsets] 


for sseta, ssetb in [(sseta,ssetb) for sseta in synsetnamea\ 


for ssetb in synsetnameb]: 


pathsim = sseta.path similarity (ssetb) 


wupsim = sseta.wup similarity (ssetb) 


if pathsim != None: 


print "Path Sim Score: ",pathsim," WUP Sim Score: ",wupsim, \ 


"Nt",sseta.definition, "Nt", ssetb.definition 


TE name == " main ": 





#getSenseSimilarity('walk','dog') 


getSenseSimilarity('cricket','ball') 





























让 我 们 考虑 如 下 NLTK 中 有 关 Lesk 算法 的 代码 ， 它 用 于 执行 词义 消 歧 任 务 : 

















from nltk.corpus import wordnet 


def lesk(context sentence, ambiguous word, pos=None, synsets=None): 





"""Return a synset for an ambiguous word in a context. 





:param iter context sentence: The context sentence where th 
ambiguous word 

occurs, passed as an iterable of words. 

:param str ambiguous word: The ambiguous word that requires WSD. 

:Param str pos: A specified Part-of-Speech (POS). 





:Param iter synsets: Possible synsets of the ambiguous word. 
:return: ""lesk sense'' The Synset() object with the highest 





signature overlaps. 


// This function is an implementation of the original Lesk 
algorithm (1986) [1]. 


Usage example:: 


>>> lesk(['I', 'went', 'to', 'the', 'bank', 'to', 'deposit', 
Le le 'bank', pr) 
Synset('savings bank.n.02') 


context = set(context sentence) 
if synsets is None: 








synsets = wordnet.synsets (ambiguous word) 
if pos: 
synsets = 


[ss for ss in synsets if str(ss.pos() ) 
if not synsets: 





== pos] 
return None 
_, sense = max ( 
(len (context.intersection(ss.definition().split())), ss) 
ss in synsets 
) 


return sense 


6.4 小 结 




















在 本 章 中 ， 我 们 讨论 了 语义 分 析 ， 它 也 是 自然 语言 处 到 
NER、 使 用 HMM 执行 NER、 使 































































































6.4 小 结 


'money', 


for 


的 阶段 之 一 。 我 们 还 讨论 了 
机 器 学 习 工 具 包 执行 NER、NER 的 性 能 指标 、 使 用 词 
性 标注 执行 NER、 使 用 Wordnet 的 WSD 和 同义词 集 生 成 。 
在 下 一 章 中 ， 我 们 将 使 用 NER 和 机 器 学 习 的 方法 来 讨论 情感 分 
统 的 评估 。 








析 ， 还 将 讨论 NER 系 
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第 7 章 


情感 分 析 : 我 很 快乐 

















情感 分 析 ( 或 者 叫 情感 生成 ) 是 NLP 中 的 众多 任务 之 一 ， 其 被 定义 为 确定 一 个 字符 序 























aI 









































青 是 愉快 的 还 是 悲伤 的 ， 或 者 仅 代表 一 次 中 性 的 表达 。 
本 章 将 包含 以 下 主题 : 

。 情感 分 析 简 介 。 

。 使 用 NER 执行 情感 分 析 。 

。 使 用 机 器 学 习 执行 情感 分 析 。 

。 NER 系统 的 评估 。 





— 





















































7.1 情感 分 析 简 介 








情感 分 析 可 以 认为 是 一 个 在 自然 语言 上 执行 的 任务 。 这 里 ， 对 











1 背后 所 隐 含 的 情感 信息 的 过 程 。 情 感 分 析 可 用 于 确定 表达 文本 思想 的 演讲 者 或 人 们 的 心 

















自然 语言 表达 的 句子 















































生 的 情感 。 情 感 分 析 是 





或 单词 执行 了 计算 ， 以 便 确定 它们 是 在 表达 积极 的 、 消 极 的 还 是 中 1 






































一 个 主观 的 任务 ， 因 为 它 提供 了 所 表达 的 文本 的 有 关 信息 。 情 感 分 析 可 以 认为 是 一 个 分 类 
问题 ， 有 两 种 分 类 类 型 ， 即 三 元 分 类 积极 的 或 消极 的 ) 和 多 元 分 类 《积极 的 、 消 极 的 或 


















































中 性 的 )。 情 感 分 析 也 被 称 作文 本 情感 分 机， 这 是 一 种 文本 挖掘 的 方法 ， 通 过 该 方法 我 们 可 
以 知晓 文本 隐 含 的 情感 或 情绪 。 当 我 们 将 情感 分 析 与 主题 挖掘 相 结合 时 ， 就 可 以 称 之 为 主 
题 情感 分 析 。 通 过 使 用 词典 可 以 执行 情感 分 析 。 词 典 可 以 是 特定 领域 的 抑或 是 通用 类 型 的 ， 
词典 可 以 包含 一 个 由 积极 的 表达 、 消 极 的 表达 、 中 性 的 表达 和 停止 词组 成 的 列表 。 当 出 现 








































































































一 个 测试 的 句子 时 ， 可 以 通过 该 词典 来 执行 简单 的 查找 操作 。 
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单词 列表 的 一 个 例子 是 标准 英语 情感 词汇 库 (Affective Norms for English Words, 


ANEW)。 这 个 库 是 一 个 英语 单词 列表 ， 是 由 Bradley 和 Lang 在 佛罗里达 大 学 创建 的 ， 它 


























包含 了 涉及 情绪 的 三 个 维度 〈 优 势 度 、 愉 悦 度 、 激 活 度 ) 的 1034 个 单词 。 当 初 构建 这 个 单 























词 列表 是 为 了 学 术 目 的 并 不 是 为 了 研究 的 目的 。 其 他 变 体 有 DANEW (Dutch ANEW) 和 














SPANEW (Spanish ANEW). 





























AFINN H 2477 个 单词 组 成 (更 早 为 1468 个 单词 )。 这 个 单词 列表 是 由 Finn Arup Nielson 
创建 的 。 创 建 这 个 单词 列表 的 主要 目的 是 对 Twitter 上 的 文本 执行 情感 分 析 , 并 将 评价 值 ( 范 




















围 从 -5 到 +5) 分 配给 每 一 个 单词 。 















































Balance Affective 单词 列表 包括 277 个 英语 单词 。 评 价 编码 范围 从 1 到 4。1 表示 积极 











的 ，2 表示 消极 的 ，3 表示 焦虑 的 ，4 表示 中 立 的 。 


Berlin Affective Word List (BAWL), 4% 2200 个 德语 单词 。BAWL 的 另 一 个 版 本 是 
昌 单 词 的 额外 激活 度 组 成 。 

















[uni 














Berlin Affective Word List Reloaded (BAWL-R), # 




















Bilingual Finnish Affective Norms, £135 210 个 英 式 英语 和 芬兰 语 名 词 ， 此 外 还 包括 禁 


idu. 














REG 














Compass DeRose Guide to Emotion Words， 由 英文 中 的 情绪 词组 成 ， 它 是 由 Steve J. 



































DeRose 创立 的 。 虽 然 单 词 被 分 了 类 ， 但 是 并 不 存在 评价 值 和 激活 度 。 



































Dictionary of Affect in Language (DAL), 包括 可 用 于 情感 分 析 的 情绪 词 , 它 是 由 Cynthia 
M. Whissell 创立 的 。 因 此 ， 它 也 被 称 为 Whissell's Dictionary of Affect in Language (WDAL). 


General Inquirer， 由 许多 字典 组 成 。 其 中 ， 积 极 情感 列表 包含 1915 个 单词 ， 消 极 情 感 









































27 


— 


HEL 2291 个 单词 。 


























Hu-Liu opinion Lexicon (HL)， 由 一 个 包含 了 6800 个 单词 (积极 的 和 消极 的 ) 的 列表 组 成 。 




















Leipzig Affective Norms for German (LANG)， 是 一 个 由 1000 个 德语 名 词组 成 的 列表 ， 

















其 评级 基于 评价 值 、 


= 


生 别 和 激活 度 。 





























Loughran and McDonald Financial Sentiment Dictionaries, "té H 




















Tim Loughran fil Bill 


McDonald 创建 的 。 这 些 词 典 由 财务 文档 词汇 组 成 ， 其 包含 积极 的 、 消 极 的 或 者 有 关 语 气 的 











单词 。 


























Moors， 由 一 个 与 优势 度 、 激 活 度 和 评价 值 相关 的 荷兰 语 单词 列表 组 成 。 
NRC Emotion Lexicon， 包 含 由 Saif M. Mohammad 通过 亚马逊 士 耳 其 机 器 人 (Amazon 


























Mechanical Turk〉 开 发 的 一 个 词汇 列表 。 


130 第 7 章 情感 分 析 : 我 很 快乐 


OpinionFinder 的 Subjectivity Lexicon 由 一 个 包含 了 8221 个 单词 (积极 的 或 消极 的 ) 的 
列表 组 成 。 








SentiSense, HH 2190 个 同义词 集 和 5496 个 单词 组 成 ， 这 些 单词 涉及 14 种 情感 分 类 


ABA JJ FR o 


亚马逊 士 耳 其 机 器 人 (Amazon 




















Warringer， 包 含 13915 个 英文 单词 ， 这 些 单词 由 
Mechanical Turk) 收集 且 与 优势 度 、 激 活 度 和 评价 值 相关 。 


labMT， 是 一 个 由 10000 个 单词 组 成 的 单词 列表 。 
让 我 们 考虑 如 下 NLTK 中 的 代码 示例 ， 其 可 用 于 对 电影 评论 进行 情感 分 析 : 


Wats 





=| 








































































































import nltk 

import random 

from nltk.corpus import movie reviews 

docs - [(list(movie reviews.words(fid)), cat) 


for cat in movie reviews.categories() 





for fid in movie reviews.fileids (cat)] 
random.shuffle(docs) 





all tokens - nltk.FreqDist(x.lower() for x in movie reviews.words()) 
token features - all tokens.keys()[:2000] 
print token features[:100] 


[yt “hes Tuty Sat, hand), hob, Pto! 7TT*, "st, "at, s, 

PMN > UppUs UEhgE' TSY; «yvy Math, tust witlrtyp "tort "hist; “this; 
'film', 'i', 'he', 'but', 'on', 'are', 't', 'by', 'be', ronet, 
'movie', 'an', 'who', 'not', 'you', 'from', 'at', 'was', 'have', 
'they', 'has', 'her', 'all', '?', 'there', 'like', 'so', 'out', 
'about', 'up', 'more', 'what', 'when', 'which', 'or', 'she', 'their', 
isst 'some', 'just', 'can', 'if', 'we', 'him', 'into', 'even', 'only', 
'than', 'no', 'good', 'time', 'most', 'its', 'will', 'story', 'would', 
'been', 'much', 'character', 'also', 'get', 'other', 'do', 'two', 
'well', 'them', 'very', 'characters', ';', 'first', '--' 'after', 


, 
'see'!, '!', 'way', 'because', 'make', 'life'] 


def doc features (doc): 
doc words - set(doc) 
features = {} 
for word in token features: 


features ['contains(%s)' $ word] = (word in doc words) 


return features 


print doc features (movie reviews.words('pos/cv957 8737.txt 





feature sets - [(doc features(d), c) for (d,c) in doc] 
train sets, test sets - feature sets[100:], feature sets[:100] 
classifiers - nltk.NaiveBayesClassifier.train(train sets) 


print nltk.classify.accuracy(classifiers, test sets) 
0.86 
classifier.show most informative features (5) 


Most Informative Features 





contains(damon) = True pos : neg = 11.2 1.0 
contains(outstanding) = True pos : neg = 10.6 1.40 
contains(mulan) = True pos : neg = 8.8 1.0 
contains(seagal) = True neg : pos = 8.4 1.0 
contains (wonderfully) = True pos : neg = 7.4 1.0 




















r 














这 里 ， 我 们 检测 了 文档 中 是 否 存在 有 益 的 特征 信息 。 


考虑 另 一 个 语义 分 析 的 例子 。 首 先 需要 进行 文本 的 预 处 理 。 在 此 过 程 中 ， 标 识 出 了 给 
定 文本 中 的 句子 ， 然 后 再 标识 出 句子 中 的 标识 符 。 每 个 标识 符 还 包括 三 个 实体 ， 即 : 单词 、 
词 条 和 标记 。 


让 我 们 来 看 看 如 下 NLTK 中 用 于 执行 文本 预 处 理 的 代码 : 










































































import nltk 


class Splitter(object): 
def init (self): 





self.nltk splitter = nltk.data.load('tokenizers/punkt/english.pickle') 
self.nltk tokenizer = nltk.tokenize.TreebankWordTokenizer () 





def split(self, text): 
sentences = self.nltk_splitter.tokenize (text) 





tokenized sentences = [self.nltk tokenizer.tokenize(sent) for sent in 








sentences] 





return tokenized sentences 
class POSTagger (object): 
def | init (self): 

pass 


def pos tag(self, sentences): 
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pos = [nltk.pos tag(sentence) for sentence in sentences] 
pos = [[(word, word, [postag]) for (word, postag) in sentence] for 


sentence in pos] 


return pos 











生成 的 词 条 将 与 单词 的 形式 相同 ， 标 记 指 的 是 词性 标记 。 考 虑 如 下 代码 ， 它 为 每 个 标 





a 








识 符 生 成 了 包含 三 个 元 素 的 元 组 〈 即 单词 、 词 条 和 词性 标记 )。 


text = """Why are you looking disappointed. We will go to restaurant 
for dinner.""" 

splitter = Splitter() 

postagger = POSTagger () 

splitted_sentences = splitter.split (text) 





print splitted sentences 
' 


[['Why','are','you','looking','disappointed',' ''.'], ['We','will','go', 


to','restaurant','for','dinner','.']] 





pos tagged sentences - postagger.pos tag(splitted sentences) 


print pos tagged sentences 
[LC Why' 'Why', ['WP']), ('are','are', ['VBZ']) , (' you', ' you' , ['PRP'] 
),('looking','looking',['VB']), ('disappointed', 'disappointed',[' 


VB']),('.', '.', E111], [('We', 'We', ['PRP']), ('will','will', ['VBZ']), (' 
go','go',['VB']), ('to', 'to', ['TO']), ('restaurant','restaurant', ['NN']) 
,CUfor','"for*t,['IN*'])y,('drinner","dinner*,|' NN'])g(V*'.t,*'.'p*.1»]] 








II 








我 们 可 以 构建 两 种 类 型 的 字典 ， 
字典 对 我 们 处 理 过 的 文本 执行 词性 标注 。 





























7 





使 月 








T 











让 我 们 考虑 如 下 NLTK 中 有 关 使 用 字 — 典 来 执行 词性 标注 的 代码 : 

















class DictionaryTagger (object): 

def | init (self, dictionary paths): 

files = [open(path, 'r') for path in dictionary paths] 
dictionaries - [yaml.load(dict file) for dict file in files] 
map (lambda x: x.close(), files) 

self.dictionary = {} 

self.max key size = 0 

for curr dict in dictionaries: 

for key in curr dict: 

if key in self.dictionary: 
self.dictionary[key].extend(curr dict[key]) 

else: 


包含 了 积极 的 表达 和 消极 的 表达 ， 然 后 我 们 就 可 以 


self.dictionary[key] = curr dict[key] 





self.max key size = max(self.max key size, len (key)) 





def tag(self, postagged sentences): 





return [self.tag sentence(sentence) for sentence in postagged 


sentences] 





def tag sentence(self, sentence, tag with lemmas-False): 
tag sentence - [] 

N = len(sentence) 
if self.max key size == 





self.max key size = N 


i-0 
while (i« N): 
j = min(i + self.max key size, N) #avoid overflow 


tagged = False 
while (j >i): 


expression form = ' '.join([word[0] for word in sentence[i:j]]). 
lower () 
expression lemma = ' '.join([word[1] for word in sentence[i:j]]). 
lower () 


if tag with lemmas: 








literal - expression lemma 
else: 
literal - expression form 


if literal in self.dictionary: 


is single token = j = i-- 1 
original position - i 
isj 


taggings = [tag for tag in self.dictionary[literal] ] 





tagged expression = (expression form, expression lemma, taggings) 


if is single token: #if the tagged literal is a single token, conserve 


its previous taggings: 
original token tagging = sentence[original position] [2] 





tagged expression[2].extend(original token tagging) 
tag sentence.append(tagged expression) 

tagged = True 

else: 


if not tagged: 





tag_sentence.append (sentence [i] ) 
i += 1 
return tag sentence 
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这 里 ， 在 字典 的 帮助 下 ， 文 本 中 预 处 理 过 的 单词 被 标注 为 积极 的 或 者 消极 的 。 
让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 其 可 用 于 计算 积极 表达 和 消极 表达 的 数量 : 






































[us 




















def value of(sentiment): 





if sentiment == 'positive': return 1 
if sentiment == 'negative': return -1 
return 0 


def sentiment score (review): 
return sum ([value of(tag) for sentence in dict tagged sentences for 
token in sentence for tag in token[2]]) 



































在 NLTK #, nltk.sentiment.util 模块 通过 使 用 Hu-Liu 字典 来 进行 情感 分 析 。 
在 字典 的 帮助 下 ， 该 模块 对 积极 表达 、 消 极 表达 以 及 中 立 表 达 的 数量 进行 了 统计 ， 然 后 基 
于 多 数 原 则 来 确定 该 文本 是 由 积极 、 消 极 还 是 中 立 的 情感 所 组 成 的 。 字 典 不 支持 的 单词 被 


7.1.1 使 用 NER 执行 情感 分 析 


NER 是 一 个 找 出 命名 实体 并 将 其 分 类 为 不 同 的 命名 实体 类 的 过 程 。 我 们 可 以 使 用 不 同 
的 技术 来 执行 NER, 例如 基于 规则 的 方法 、 列 表 查 找 方 法 和 统计 学 方法 ( 隐 马 尔 科 夫 模型 、 
最 大 炉 尔 科 夫 模型 、 支 持 向 量 机 、 条 件 随机 场 和 决策 树 )。 

如 果 识 别 出 了 一 个 列表 中 的 命名 实体 ， 那 么 就 可 以 将 它们 从 句子 中 移 除 或 过 滤 掉 。 
似 地 ， 停 止 词 也 可 以 被 删除 。 现 在 我 们 就 可 以 对 剩余 的 单词 进行 情感 分 析 了 ， "o 
体 是 与 情感 分 析 无 关 的 单词 。 


7.1.2 ”使 用 机 器 学 习 执 行情 感 分 析 
NLTK 中 的 nltk.sentiment .sentiment analyzer 模块 可 用 于 执行 情感 分 析 ， 
它 是 基于 机 器 学 习 技术 的 。 


让 我 们 来 看 看 如 下 NLTK PAX nltk.sentiment.sentiment analyzer 模块 的 
代码 : 
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from X future import print function 
from collections import defaultdict 


from nltk.classify.util import apply features, accuracy as eval_ 


accuracy 


from nltk.collocations import BigramCollocationFinder 
from nltk.metrics import (BigramAssocMeasures, precision as eval _ 
precision, 


recall as eval recall, f measure as eval f measure) 


from nltk.probability import FreqDist 





from nltk.sentiment.util import save file, timer 
class SentimentAnalyzer (object): 
noww 
A tool for Sentiment Analysis which is based on machine learning 
techniques. 
now ow 
def | init (self, classifier-None): 
self.feat extractors - defaultdict(list) 
self.classifier = classifier 



































考虑 如 下 代码 ， 它 将 返回 文本 中 所 有 (重复 的 ) 单词 : 








def all words (self, documents, labeled=None): 
all_words = [] 
if labeled is None: 
labeled = documents and isinstance(documents[0], tuple) 





if labeled == True: 
for words, sentiment in documents: 
all words.extend (words) 
elif labeled == False: 
for words in documents: 
all words.extend (words) 
return all words 


考虑 如 下 代码 ， 它 将 在 文本 上 应 用 特征 提取 函数 : 





def apply features(self, documents, labeled=None) : 


return apply features (self.extract features, documents, 
labeled) 





考虑 如 下 代码 ， 它 将 返回 单词 的 特征 : 


def unigram word feats(self, words, top n-None, min freq-0): 





unigram feats freqs - FreqDist(word for word in words) 
return [w for w, f in unigram feats freqs.most common (top n) 


if unigram feats freqs[w] » min freq] 
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以 下 代码 返回 的 是 二 元 语法 特征 : 





def bigram collocation feats(self, documents, top n-None, min freq-3, 


assoc measure-BigramAssocMeasures. 


pmi): 


finder - BigramCollocationFinder.from documents (documents) 


finder.apply freq filter(min freq) 
return finder.nbest(assoc measure, top n) 


证 我 们 来 看 看 如 下 代码 ， 通 过 使 用 特征 集 其 可 用 于 分 类 一 个 给 定 的 实例 : 









































def classify(self, instance): 





instance feats = self.apply features([instance], 
labeled=False) 
return self.classifier.classify(instance feats[0]) 


T 











让 我 们 来 看 看 如 下 代码 ， 其 可 用 于 抽取 文本 的 特征 : 














def add_feat_extractor(self, function, **kwargs): 
self.feat extractors [function] .append(kwargs) 


def extract_features(self, document): 
all features = {} 
for extractor in self.feat extractors: 
for param set in self.feat extractors[extractor]: 





feats = extractor(document, **param set) 
all features.update (feats) 
return all features 

















让 我 们 来 看 看 如 下 可 在 训练 文件 上 执行 训练 的 代码 , 其 中 save classifier 用 于 











输出 结果 保存 到 一 个 文件 中 : 


def train(self, trainer, training set, save classifier-None, 
**kwargs): 

print("Training classifier") 

self.classifier - trainer(training set, **kwargs) 

if save classifier: 


save file(self.classifier, save classifier) 


return self.classifier 























让 我 们 来 看 看 如 下 代码 ， 其 可 用 于 执行 测试 ， 而 且 其 通过 使 用 测试 数据 能 够 对 我 们 的 
































分 类 器 执行 性 能 评估 : 








def evaluate(self, test set, classifier-None, accuracy-True, f_ 





measure-True, 





precision-True, recall-True, verbose-False): 
if classifier is None: 


classifier = self.classifier 





print ("Evaluating {0} results...".format(type(classifier). _ 
name )) 
metrics results - (] 
if accuracy == True: 
accuracy score - eval accuracy(classifier, test set) 
metrics results['Accuracy'] - accuracy score 


gold results - defaultdict (set) 

test results = defaultdict (set) 

labels = set() 

for i, (feats, label) in enumerate(test set): 
labels.add(label) 
gold results[label].add(i) 
observed = classifier.classify(feats) 








test results[observed].add(i) 


for label in labels: 
if precision -- True: 
precision score = eval precision(gold results[label], 
test results[label]) 
metrics results['Precision [{0}]'.format(label)] = 
precision score 
if recall -- True: 
recall score - eval recall(gold results[label], 
test results[label]) 








metrics results['Recall [{0}]'.format(label)] = 

recall score 
if f measure -- Tru 
f measure score - eval f measure(gold results[label], 
test results[label]) 

metrics results['F-measure [{0}]'.format(label)] = f. 

measure score 
if verbose -- Tru 





for result in sorted(metrics results): 
print('(0)]: (1]'.format(result, metrics _ 
results[result])) 


return metrics results 
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Twitter 被 认为 是 最 流行 的 博客 服务 之 一 ， 它 可 用 于 创建 那些 被 称 作 推 文 的 消息 ， 这 些 























文 由 相关 积极 、 消 极 或 中 立 情感 的 单词 所 组 成 。 








为 了 执行 情感 分 机， 我 们 可 以 使 用 机 器 学 习 分 类 器 、 统 计 学 分 类 器 或 自动 分 类 器 ， 例 





感 
] 朴 素 贝 叶 斯 分 类 器 (Naive Bayes Classifier). He 8472528 (Maximum Entropy Classifier) 








以 及 支持 向 量 机 分 类 器 (Support Vector Machine Classifier) 等 。 























这 些 机 器 学 习 分 类 器 或 自动 分 类 器 用 于 执行 有 监督 的 分 类 ， 因 为 它们 需要 训练 数据 才 

















能 执行 分 类 。 


让 我 们 来 看 看 如 下 NLTK 中 用 于 执行 特征 提取 的 代码 : 








stopWords = [] 





#If there is occurrence of two or more same character, then replace it 
with the character itself. 
def replaceTwoOrMore(s) : 

pattern = re.compile(r"(.)\1{1,}", re.DOTALL) 

return pattern.sub(r"\1\1", s) 
def getStopWordList (stopWordListFileName): 

# This function will read the stopwords from a file and builds a 
Tist; 








stopWords = [] 
stopWords.append('AT USER') 
stopWords.append('URL') 

fp = open(stopWordListFileName, 'r') 
line = fp.readline() 

while line: 





word = line.strip() 
stopWords.append (word) 
line = fp.readline() 





fp.close() 
return stopWords 





def getFeatureVector (tweet): 
featureVector = [] 
#Tweets are firstly split into words 





words = tweet.split() 
for w in words: 
#replace two or more with two occurrences 


w = replaceTwoOrMore (w) 


#strip punctuation 
w = w.strip('\'"?,.") 
#Words begin with alphabet is checked. 
val = re.search(r"^[a-zA-Z][a-zA-Z20-9]*$", w) 
#If there is a stop word, then it is ignored. 
if(w in stopWords or val is None): 
continue 
else: 
featureVector.append(w.lower()) 





return featureVector 
fend 





#Tweets are read one by one and then processed. 
fp = open('data/sampleTweets.txt', 'r') 





line = fp.readline() 


st = open('data/feature list/stopwords.txt', 'r') 
stopWords = getStopWordList('data/feature list/stopwords.txt') 


while line: 
processedTweet - processTweet (line) 





featureVector = getFeatureVector (processedTweet) 





print featureVector 





line = fp.readline() 
end loop 
fp.close() 





Tweets are read one by one and then processed. 
inpTweets = csv.reader(open('data/sampleTweets.csv', 'rb'), 





delimiter-',', quotechar='|') 





tweets - [] 

for row in inpTweets: 

sentiment - row[0] 

tweet = row[1] 

processedTweet = processTweet (tweet) 





featureVector = getFeatureVector(processedTweet, stopWords) 





tweets.append((featureVector, sentiment)); 








#Features Extraction takes place using following method 





def extract features (tweet): 





tweet words = set (tweet) 
features = {} 
for word in featureList: 
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9. 


features['contains($s)' $ word] = (word in tweet words) 


return features 


在 训练 分 类 器 期 间 , 机 器 学 习 算法 的 输入 是 标签 和 特征 。 当 输入 被 给 到 特征 提取 器 时 ， 
就 可 以 从 特征 提取 器 获取 特征 。 在 预测 期 间 ， 分 类 器 模型 的 输出 是 一 个 标签 ， 并 且 其 输入 
是 那些 使 用 特征 提取 器 获取 的 特征 。 让 我 们 来 看 看 用 于 阐述 这 一 相同 过 程 的 流程 图 , 如 图 7-1 
所 示 。 











TRAINING 












PREDICTION 











图 7-1 


现在 ， 证 我 们 来 看 看 如 下 代码 ， 通 过 使 用 朴素 贝 叶 斯 分 类 器 ， 其 可 用 于 执行 情感 分 析 ; 


NaiveBClassifier = nltk.NaiveBayesClassifier.train(training set) 





# Testing the classifier testTweet = 'I liked this book on Sentiment 
Analysis a lot.' 

processedTestTweet = processTweet (testTweet) 

print NaiveBClassifier.classify(extract_features (getFeatureVector (proc 
essedTestTweet) ) ) 

testTweet = 'I am so badly hurt' 

processedTestTweet - processTweet (testTweet) 





print NBClassifier.classify(extract features (getFeatureVector (process 
edTestTweet))) 


VEDRAN a EHUB ASE FH AREA APT ARA: 


MaxEntClassifier = nltk.classify.maxent.MaxentClassifier. 
train(training set, 'GIS', trace=3, \ 

encoding-None, labels-None, sparse-True, gaussian 
prior sigma-0, max iter - 10) 
testTweet = 'I liked the book on sentiment analysis a lot' 
processedTestTweet - processTweet (testTweet) 
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print MaxEntClassifier.classify(extract features (getFeatureVector (proc 
essedTestTweet))) 





print MaxEntClassifier.show most informative features (10) 


7.1.3 NER 系统 的 评估 

能 指标 或 评估 有 助 于 展示 一 个 NER 系统 的 性 能 。NER 标注 器 的 结果 可 以 认为 是 一 
答 ， 人 们 的 一 种 解释 称 作 答案 要 点 。 因 此 ， 我 们 提供 了 如 下 定义 : 

e Correct: 如 果 回 答 与 答案 要 点 完全 相同 。 


e Incorrect: 如 果 回 答 与 答案 要 点 不 同 。 
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。 Missing: 如 果 答 案 要 点 被 标注 ， 但 回答 未 被 标注 。 
e Spurious: 如 果 回 答 被 标注 ， 但 答案 要 点 未 被 标注 
通过 使 用 以 下 参数 可 以 评价 一 个 基于 NER 的 系统 的 性 能 : 


e 精确 率 (P): P=Correct/(Correct+Incorrect+Missing) . 




















o 











> 





。 召回 率 (R): R=Correct/(Correct+Incorrect+Spurious) « 
e 下 值 : F-Measure = (2*P*R)/(P+R)。 
让 我 们 来 看 看 使 用 HMM 执行 NER 的 代码 : 





Jpeeeee* Function to find arl tags in corpus ********** 


def find tag set(tra lines): 
global tag set 


tag set = [ ] 


for line in tra lines: 
tok = line.split() 

for tin. tok: 

wd = t.split("/") 

if not wd[1] in tag set: 
tag set.append(wd[1]) 


return 


$******* Function to find frequency of each tag in tagged corpus 
ckckckckckck kk k 
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def cnt tag(tr ln): 
global start li 
global li 

global tag set 
global c 

global line cnt 
global lines 


lines = tr 1n 
start li = [ ] # list of starting tags 
find tag set(tr ln) 


line cnt = 0 

for line in lines: 

tok = line.split() 

x = tok[0].split("/") 

if not x[1] in start li: 
start li.append(x[1]) 
line cnt = line cnt + 1 


find freq tag() 
find freq srttag() 
return 


def find freq tag(): 
global tag cnt 

global tag set 

tag cnt-í(] 

i20 

for w in tag set: 

cal freq tag(tag set[il) 
i=i+1 
tag_cnt.update({w:freq tg}) 


return 


def cal freq tag(tg): 
global freq tg 


global lines 
freq tg = 0 


for line in lines: 


freq tg = freq tg + line.count(tg) 
return 


$******* Function to find frequency of each starting tag in tagged 


corpus 大 大 大大 大大 大 类 大 大 


def find freq srttag(): 
global lst 
lst = {} # start probability 


i=0 

for w in start_li: 

cc = freq srt tag(start li[i]) 
prob = cc / line cnt 


lst.update((start li[i]:prob]) 
i=i+1 

return 

def freq srt tag(stg): 

global lines 

freq srt tg = 0 


for line in lines: 


tok = line.split() 

if stg in tok[0]: 

freq srt tg = freq srt tg + 1 
return(freq srt tg) 


import tkinter as tk 
import vit 

import random 

import cal start p 
import calle prob 
import trans mat 


import time 





import trans 
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import dict5 

from tkinter import * 

from tkinter import ttk 

from tkinter.filedialog import askopenfilename 
from tkinter.messagebox import showerror 
import languagedetectl 

import languagedetect3 

e dict - dict() 

t dict - dict() 


def calculatel(*args): 
import listboxl 
def calculate2(*args): 
import listbox2 
def calculate3(*args): 





import listbox3 


def dispdlg(): 
global file name 
root = tk.Tk() 
root.withdraw() 





file name = askopenfilename () 


return 


def tranhmm(): 
ttk.Style().configure("TButton", padding=6, relief="flat",background=" 
Pink", foreground="Red") 





ttk.Button(mainframe, text-"BROWSE", command-find train corpus). 
grid(column-7, row-5, sticky-W) 

The following code will be used to display or accept the testing 
corpus from the user. 

def testhmm(): 

ttk.Button(mainframe, text-"Develop a new testing Corpus", 
command-calculate3).grid(column-9, row=5, sticky-E) 














ttk.Button(mainframe, text-" BROWSE", command-find obs).grid(column-9, 
row-7, sticky-E) 








#In HMM, We require parameters such as Start Probability, Transition 
Probability and Emission Probability. The following code is used to 





calculate emission probability matrix 


def cal_emit_mat(): 

global emission probability 
global corpus 

global tlines 


calle prob.m prg(e dict,corpus,tlines) 





emission probability = e dict 
return 

# to calculate states 

def cal_states(): 

global states 

global tlines 

cal start p.cnt tag(tlines) 
states = cal start p.tag set 
return 

# to take observations 


def find obs(): 
global observations 


global test lines 
global tra 

global w4 

global co 

global tra 

global wol 

global wo2 

global testl 
global wo3 

global te 





global definitionText 








global definitionScroll 
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global dt2 
global ds2 
global dt11 
global ds11 


wo3= 
woo- 
wol- 


wo2= 


co=0 
w4=[ ] 
if(flag2!=0): 

definitionTextll.pack forget () 





definitionScrollll.pack forget () 
dtl.pack forget () 
dsl.pack forget () 








dispdlg () 

f = open(file name, "r+",encoding = 'utf-8') 
test lines = f.readlines() 

f.close() 


fname-"C:/Python32/file namel" 


for x in states: 
if not x in start probability: 
start probability.update((x:0.0]) 





for line in test lines: 


ob = line.split() 





observations = ( ob ) 

fe=open ("C:\Python32\output3 file","wt",encoding = 'utf-8') 
fe.write("") 

fe.close() 

ff=open ("C:\Python32\output4 file","w-",encoding = 'utf-8') 
ff.write("") 

ff.close() 

££7=open ("C:\Python32\output5 file","wt",encoding = 'utf-8') 


ff7.write("") 


ff7.close() 

££8=open ("C:\Python32\output6 file","wt",encoding = 'utf-8') 
ff8.write("") 

ff8.close() 

££81=open ("C:\Python32\output7 file", "w+",encoding = 'utf-8') 
ff81.write("") 

ff81.close() 

dict5.search obs train corpus(filel,fname,tlines,test 





lines,observations, states, start probability, transition probability, 
emission probability) 


£20 = open("C:\Python32\output5 file","r+",encoding = 'utf-8') 
te = f20.readlines() 

tee-f20.read() 

f = open(fname,"r+",encoding = 'utf-8') 








train llines = f.readlines() 





ds11 = Scrollbar (root) 
t11 = Text (root, width-10, height=20,fg='black',bg='pink',yscrollcom 
and-dsll.set) 


























d 

m 

dsll.config (command=dt11.yview) 
dtll.insert("1.0",train llines) 
dtiTlinsert(*tl.:0";"Xn*") 

dtll.insert("1.0","VXn") 

dtll.insert ("1.0","******TRAINING SENTENCES*****x*x") 








# an example of how to add new text to the text area 
dtll.pack(padx-10,pady-150) 
dsll.pack(padx-10,pady-150) 


dsll.pack(side-LEFT, fill-BOTH) 
dtll.pack(side-LEFT, fill-BOTH, expand-True) 























ds2 = Scrollbar (root) 
dt2 = Text(root, width-10, height=10, fg='black',bg='pink',yscrollcomm 
and=ds2.set) 
ds2.config(command-dt2.yview) 
d 

d 








t2.insert("l1.0",test lines) 


"1 20, "\n") 





t2.insert 


( 
( 
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dt2.insert("1.0","\n") 
dt2.insert ("1.0%, "*********TESTING SENTENCES*********™) 




















# an example of how to add new text to the text area 
dt2.pack (padx=10, pady=150) 
ds2.pack (padx=10, pady=150) 


ds2.pack(side-LEFT, fill-BOTH) 
dt2.pack(side-LEFT, fill-BOTH, expand-True) 




















definitionScroll = Scrollbar(root) 
definitionText = Text (root, width-10, height=10,fg='black',bg='pink',y 
scrollcommand=definitionScroll.set) 








definitionScroll.config (command=definitionText.yview) 


definitionText.insert("1.0",te) 














definitionText.insert ("1.0","\n") 
definitionText.insert ("1.0","\n") 
definitionText.insert ("L.0", "******** *OUTPUTA KKK KKK AMY 


# an example of how to add new text to the text area 
definitionText.pack (padx=10,pady=150) 
definitionScroll.pack (padx=10,pady=150) 


definitionScroll.pack(side-LEFT, fill-BOTH) 
definitionText.pack(side-LEFT, fill-BOTH, expand-True) 














1 = tk.Label(root, text="NOTE:*****The Entities which are not tagged 
in Output are not Named Entities*****" , fgz'black', bg-'pink') 
l.place(x = 500, y = 650, width-500, height=25) 











#ttk.Button (mainframe, text="View Parameters", command-parame). 
grid(column-11, row-10, sticky-E) 
#definitionText.place(x= 19, y = 200,height=25) 





£20.close() 


£14 = open("C:\Python32\output2 file","r+",encoding = 'utf-8') 
testl = £14.readlines () 
for lines in testl: 





toke = lines.split() 

for t in toke: 

w4.append (t) 

fl4.close() 

£12 = open("C:\Python32\output_ file", "w+",encoding = 'utf-8') 
f12.write("") 

f12.close() 





ttk.Button(mainframe, text-"SAVE OUTPUT", command-save output). 
grid(column-11, row-7, sticky-E) 
ttk.Button(mainframe, text-"NER EVALUATION", command-evaluate). 


grid(column-13, row=7, sticky-E) 


























ttk.Button(mainframe, text="REFRESH", command=ref).grid(column=15, 








row-7, sticky-E) 





return 
def ref(): 
root.destroy() 


import newl 





return 

















证 我 们 来 看 看 如 下 Python 中 的 代码 ， 它 将 用 于 评估 通过 HMM 来 执行 NER 后 所 生成 
的 输出 结果 : 























def evaluate(): 
global wDict 
global woe 
global woel 
global woe2 
woel=[ ] 

woe=[ ] 


woe2=[ ] 





sp=0 
£141 = open("C:\Python32\outputl file","r+",encoding = 'utf-8') 
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tesl = £141.readlines() 

for lines in tesl: 

toke = lines.split() 

for t in toke: 

ws.append (t) 

if t in wDict: wDict[t] += 1 
else: wDict[t] = 1 

for line in tlines: 

tok = line.split() 


for t in tok: 
wd = t.split("/") 





if (wd[1]!='OTHER'): 

if t in wDict: wDict[t] += 1 

else: wDict[t] = 1 

print ("words in train corpus ",wDict) 


for key in wDict: 
i=itl 


print ("total words in Dictionary are:",i) 





for line in train_lines: 
toe-line.split() 

for tl in toe: 

Let, not in.ti: 

sp=sptl 

woe2.append (t1) 
print("Spurious words are") 
for w in woe2: 


print (w) 


print("Total spurious words are:",sp) 


for l in te: 
to-l.split() 
for tl in to: 
PP Nf gs tis 





fprint (t1) 
if tl in ws or tl in wDict: 
woe.append(tl) 

j=j+1 
if tl not in wDict: 
wdd-tl.split("/") 
if wdd[0] not in woe2: 
woel.append (t1) 
k=k+1 

print ("Word found in Dict are:") 
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for w in woe: 


print (w) 


print (w) 











£141.close 
root=Tk () 

root.title 
root.geome 


print ("Word not found in Dict are:") 


for w in woel: 


print ("Total correctly tagged words are:",j) 
print ("Total incorrectly tagged words are:",k) 
pr-(3)/(j*k) 
re=(j)/(jt+k+sp) 


() 








("NER EVALUATION") 
try ("1000x1000") 








ds21 = Scrollbar (root) 


t21 = Tex 


[0] 
N 


t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
l.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 
t21.inser 


t21.inser 








Q Oo 0]. 070.070.00.70.00.n0.0070.070.0o0700o070038 Q4 
at 
N 


t21.inser 


and=ds21.set) 
1.config (command-dt21.yview) 


t (root, width-10, height=10,fg='black',bg='pink', yscrollcom 





("1.0", (2*pr*re) / (prtre) ) 
(120 qn) 
("1.0", "F-MEASURE=") 
(11,500 Nt) 
("1.0","F-MEASURE- (2*PRECISION*RECALL) / (PRECISION+RECALL) ") 
(Plone) 
(261. 30 nh) 
("1.0", re) 
("1.0", "RECALL-") 
CELSO") "xn" 
("1.0","RECALL- CORRECT/ (CORRECT +INCORRECT +SPURIOUS)") 
(1095; ne) 

tC("1.0 m, An") 
( 
( 
( 
( 
( 
( 
( 
( 
( 
( 
( 
( 






























































"1.075, pr) 
"1.0","PRECISION-") 
"1.0. "Anm 
"1.0","PRECISION- CORRECT/(CORRECT +INCORRECT +MISSING)") 
lg, mm) 
"Tome, mnm) 
"1.0","Total No. of Missing words are: 0") 
"1:0" "Apt 

"1.0", An") 

"1:209 sp) 

"1.0","Total No. of Spurious Words are:") 
nO Nm) 
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for w in woe2: 
dt21.insert("1.0",w) 
dt21.tnsernt("].0Ww,''wmy 
dt21.insert("1.0","Total Spurious Words are:") 
dt21,insert("1;0","VNn") 
dt21.insert("1;0","Ng") 
dt21.insert("1.0",k) 
dt21.insert("1.0","Total No. of Incorrectly tagged words are:") 
dt21,insert("1,;0","VXg") 
for w in woel 
dt21.insert("1.0",w) 
dt21.insert("1.0"," ") 
dt21.insert("1.0","Total Incorrectly tagged words are:") 
dt21.insert("l;0","NXmg") 
dt21;insert("l.0",T"Xmn") 
dt21.insert("1.0",j) 
dt21.insert("1.0","Total No. of Correctly tagged words are:") 
dt21.insert("1.0","VXn") 
for w in woe 
dt21.insert("1.0",w) 
dt21.insert("1.0"," ") 
dt21.insert("1.0","Total Correctly tagged words are:") 
db621.1nsert('1:0"," Nn") 
dt21.insert("1.0","VXn") 
dt21.insert("1.0","**x*************PERFORMANCE EVALUATION OF 
NERHMMJACOCROOR WORD HECHO TY 





f an example of how to add new text to the text area 
dt21.pack (padx=5, pady=5) 
ds21.pack (padx=5, pady=5) 
ds21.pack(side-LEFT, fill-BOTH) 
dt21.pack(side-LEFT, fill-BOTH, expand-True) 
root.mainloop() 























return 


def save output () : 


#dispdlg() 
f = open("C:\Python32\save","wt",encoding = 'utf-8') 
£20 = open("C:\Python32\output5 file","r+",encoding = 'utf-8') 
te = f20.readlines() 





for t in te: 
f.write(t) 
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f.close() 
£20.close() 


f to calculate start probability matrix 


def cal srt prob(): 
global start probability 


start probability - cal start p.lst 


return 





# to print vitarbi parameter if required 


def pr param(): 

11 = tk.Label(root, text="HMM Training is going on..... Don't Click any 
Button! !",fg='black',bg='pink') 

ll.place(x = 300, y = 150,height=25) 





print ("states") 

print (states) 

print(" ") 

print(" ") 

print ("start probability") 
print(start probability) 
print(" ") 

print(" ") 

print("transition probability") 
print(transition probability) 
print(" ") 

print(" ") 

print("emission probability") 
print(emission probability) 





11 = tk.Label(root, text=" 
vs) 
ll.place(x = 300, y = 150,height=25) 
global flagl 
flagl=0 
global flag2 
flag2=0 
ttk.Button(mainframe, text="View Parameters", command=parame) . 
grid(column=7, row=5, sticky=W) 


return 
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def parame(): 

global flag2 
flag2=flagltl 

global definitionText11 

global definitionScrolll1 

definitionScrolll11 = Scrollbar (root) 

definitionTextll = Text (root, width-10, height=10, fg='black',bg='pink' 

,yscrollcommand=definitionScrollll.set) 





#definitionText.place(x= 19, y = 200,height=25) 
definitionScrollll.config (command-definitionTextll.yview) 














definitionTextll.delete("1.0", END) # an example of how to delete 
all current text 
definitionTextll.insert("1.0",emission probability ) 
definitionTextll.insert ("1.0","\n") 
definitionTextll.insert("1.0","Emission Probability") 
definitionTextll.insert("1.0","\n") 
definitionTextll.insert ("1.0",transition probability) 
definitionTextll.insert ("1.0","Transition Probability") 
definitionTextll.insert ("1.0","\n") 
definitionTextll.insert ("1.0",start probability) 
definitionTextll.insert("1.0","Start Probability") 

# an example of how to add new text to the text area 
definitionText11.pack (padx=10,pady=175) 








definitionScrollll.pack (padx=10,pady=175) 





definitionScrollll.pack(side-LEFT, fill-BOTH) 
definitionTextll.pack(side-LEFT, fill-BOTH, expand-True) 

















return 

f to calculate transition probability matrix 
def cat trans prob(): 

global transition probability 

global corpus 


global tlines 


trans mat.main prg(t dict,corpus,tlines) 


transition probability = t_dict 


return 


def find train corpus(): 








open ("C:\Python32\outputl file","wt",encoding='utf-8') 


global train lines 
global tlines 
global c 
global corpus 
global wordsl 
global wl 
global trainl 
global fname 
global filel 
global dsl 
global dtl 
global w21 
wordsl-[ ] 
c=0 
wl=[ 
w21=[ ] 
fll = 
fll.write("") 
fll.close() 


fr = open("C:\Python32\output_file","wt",encoding='utf-8') 


fr.write("") 











fr.close() 

fgl=open ("C:\Python32\ladetect1","wt",encoding = 'utf-8') 
fgl.write("") 

fgl.close() 
fgl=open("C:\Python32\ladetect","wt",encoding = 'utf-8') 
fgl.write("") 

fgl.close() 

dispdlg() 

f = open(file name, "r+",encoding = 'utf-8') 

train lines = f.readlines() 

dsl = Scrollbar (root) 


dtl = 


Text (root, width=10, 





and-ds1.set) 
dsl.config(command-dtl.yview) 


dtl.insert 
dtl.insert 


( 
(T 20"; NA") 


height=10, fg='black',bg='pink',yscrollcomm 


"1.0",train lines) 
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dtl.insert("1.0","\n") 
dtl.insert ("1.0", "*********TRATNING SENTENCES ** ****** #1) 

















# an example of how to add new text to the text area 
dtl .pack (padx=10, pady=175) 
dsl .pack (padx=10, pady=175) 


dsl.pack(side-LEFT, fill-BOTH) 
dtl.pack(side-LEFT, fill-BOTH, expand-True) 
fname-"C:/Python32/file namel" 





























f = open(file name, "r+",encoding = 'utf-8') 
filel=file name 

p = open (fname, "w+",encoding = 'utf-8') 

corpus = f.read() 


for line in train_lines: 
tok = line.split() 

for C in. tok: 
n-t.split() 


le-len(t) 
i=0 

j=0 
for nl inn: 
while (j<le): 


if(nl[j]é!-'/'): 
i=itl 


else: 





if (i==le): 


p.write(t) 





p.write("/OTHER ") #Handling Spurious words 
else: 
p.write(t) 


p.write(" ") 








p.write ("Wn") 


p.close() 


fname-"C:/Python32/file namel" 





£00 = open(fname," 


EEN 


tlines = f00.readlines() 





for line in tlines: 


tok = line.split() 
for t in tok: 

wd = t.split("/") 
if (wd[1]!="OTHER') 





if not wd[0] in words1: 


wordsl.append (wd[0] ) 


wl.append (wd[1]) 
£00.close () 


157.write("") 
157.close() 





Fh Fh Fh Fh Fh Fh Fh Fh Fh 
Ee 
fai 
[0] 








ncoding = 'utf-8') 


Entities of training file 


or w in wordsl: 

l.write(w) 

l.write("\n") 

1.close() 
fr=open("C:\Python32\detect","wt",encoding = 'utf-8') 
fr.write("") 
fr.close() 
f.close() 
f.close() 


cal states() 

cal emit mat() 
cal srt prob() 
cat trans prob() 
pr param() 


return 


root=Tk () 








root.title ("NAMED 


ENTITY R 











MARKOV MODEL") 





root.geometry ("1000x1000") 





ECOGNITION IN NATURAL LANGUAG 


157 = open ("C:\Python32\input_file", "wt", encoding='utf-8') 


L = open("C:\Python32\input_ file", "wt",encoding='utf-8') #input_ 
has list of Named 





ES USING HIDDI 


Fl 


mainframe = ttk.Frame (root, padding="20 20 12 12") 
mainframe.grid(column=0, row=0, sticky=(N, W, E, S)) 





b=StringVar () 
a=StringVar () 


ttk.Style().configure("TButton", padding=6, relief="flat",background=" 
Pink", foreground="Red") 
ttk.Button(mainframe, text="ANNOTATION", command=calculatel). 
grid(column=5, row=3, sticky=W) 


ttk.Button(mainframe, text-"TRAIN HMM", command=tranhmm) . 








= 


grid(column=7, row=3, sticky=E) 





























ttk.Button(mainframe, text="TEST HMM", command=testhmm) .grid(column=9, 
row=3, sticky=E) 


























ttk.Button(mainframe, text="HELP", command=hmmhelp) .grid(column=11, 





row=3, sticky=E) 


To call viterbi for particular observations find in find_obs 


def call vitar(): 
global test lines 
global train lines 


global corpus 





global observations 

global states 

global start probability 
global transition probability 








global emission probability 


find train corpus () 
cal states() 

find obs() 

cal emit mat() 

cal srt prob() 

cat trans prob() 





f print("Vitarbi Parameters are for selected corpus") 
* pr param() 
je MSHS SHen Sess SSnS To add all states not in start probability --- 





7. 
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for x in states: 
if not x in start probability: 
start probability.update((x:0.0]) 





for line in test lines: 


ob = line.split() 

observations = ( ob ) 

prrnt(" ") 

print(" ") 

print (line) 

print [HOOP ORE REEK EREK sop esee oe ose IY 

print(vit.viterbi(observations, states, start probability, transition 
probability, emission probability),bg-'Pink',fg-'Red') 


return 


root.mainloop() 























以 上 Python 代码 展示 了 如 何 通过 HMM 来 执行 NER, 以 及 如 何 使 用 性 能 指标 (精确 率 、 
回 率 和 F 值 ) 来 评估 一 个 NER 系统 的 性 能 。 




















基于 NER 的 系统 的 评估 。 











2 小 结 

















在 本 章 中 , 我 们 讨论 了 使 用 NER 和 机 器 学 习 技术 进行 的 情感 分 析 。 此 外 我 们 还 讨论 了 
































在 下 一 章 中 ， 我 们 将 会 讨论 信息 检索 、 文 本 摘要 、 停 止 词 删除 以 及 问答 系统 等 。 





第 8 章 
信息 检索 : 访问 信息 
































信息 检索 是 自然 语言 处 理 的 众多 应 用 之 一 。 信 息 检 索 可 以 定义 为 检索 用 户 一 次 查询 所 
对 应 的 相关 信息 例如， 单词 Ganga 在 文档 中 所 出 现 的 次 数 ) 的 过 程 。 


本 章 将 涵盖 以 下 主题 : 

。 信息 检索 简介 。 

。 停止 词 删除 。 

。 使 用 向 量 空间 模型 进行 信息 检索 。 

。 向 量 空间 评分 及 查询 操作 符 关 联 。 

。 使 用 隐 性 语义 索引 开发 一 个 IR 系统 。 
。 文本 摘要 。 

。 问答 系统 。 












































8.1 言 息 检索 简介 Jl 











言 息 检 索 可 以 定义 为 检索 最 合适 的 信息 作为 用 户 查 询 响应 的 过 程 。 在 信息 检索 中 ， 搜 
索 是 基于 元 数据 或 基于 上 下 文 的 索引 进行 的 。Google 搜索 就 是 信息 检索 的 一 个 例子 ， 其 中 
对 于 用 户 的 每 一 次 查询 ，Google 搜索 都 会 基于 所 使 用 的 信息 检索 算法 为 其 提供 一 个 响应 。 
信息 检索 算法 使 用 了 索引 机 制 ， 其 所 使 用 的 索引 机 制 被 称 为 倒 排 索引 。 为 了 执行 信息 检索 
任务 ， 信 息 检 索 OR) 系统 会 建立 一 个 索引 标记 列表 。 


布尔 检索 是 一 种 信息 检索 任务 ， 在 该 任务 中 ， 布 尔 操作 符 被 应 用 在 标记 列表 上 以 便 检 
索 相 关 的 信息 。 
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言 息 检 索 任务 的 准确 度 是 依据 精确 率 和 召回 率 来 度量 的 。 


假定 一 个 给 定 的 信息 检索 系统 执行 一 次 查询 时 返回 X 个 文档 ,但 是 需要 返回 的 实际 或 
黄金 文档 集 个 数 是 Y。 


召回 率 可 以 定义 为 信息 检索 系统 所 查找 到 的 部 分 黄金 文档 数 。 它 也 可 以 定义 为 真 了 
与 真正 类 和 假 负 类 的 并 集 之 比 。 


Recall (R) - ( XQ Y )/Y 

精确 率 可 以 定义 为 信息 检索 系统 检测 到 并 且 正 确 的 部 分 文档 数 。 
Precision (P) - ( XQ Y )/X 

F 值 可 以 定义 为 精确 率 和 召回 率 的 调 合 平均 值 。 
F-Measure =2* (XNY)/(X+Y) 


8.1.1 停止 词 删除 


在 执行 信息 检索 任务 时 ， 检 测 文 档 中 的 停止 词 并 删除 它们 是 至 关 重 要 的 。 
让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 其 用 于 获取 英文 中 可 以 被 检测 到 的 停止 词 集合 。 








mi 

































































FT 
* 




































































































































































>>> import nltk 





>>> from nltk.corpus import stopwords 

>>> stopwords.words('english') 

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 
'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 
'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 





'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 
'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 
'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 
'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 
'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 





'with', 'about', 'against', 'between', 'into', 'through', 'during', 
'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 
'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 


'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 





'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 
'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 
't', 'can', 'will', 'just', 'don', 'should', 'now'] 








NLTK 包含 一 个 由 2400 个 停止 词 〈 涉 及 11 种 不 同 语言 ) 所 组 成 的 停止 词语 料 库 。 
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让 我 们 来 看 看 下 面 NLTK 中 的 代码 ， 其 可 用 于 找 出 一 篇 文章 中 那些 不 是 停止 词 的 单词 
个 数 。 














>>> def not_stopwords (text): 
stopwords = nltk.corpus.stopwords.words('english') 


content = [w for w in text if w.lower() not in stopwords] 





return len(content) / len(text) 


>>> not stopwords (nltk.corpus.reuters.words()) 
0.7364374824583169 


























让 我 们 来 看 看 下 面 NLTK 中 的 代码 ， 其 可 用 于 从 给 定 的 文本 中 删除 停止 词 。 这 里 ， 在 
删除 停止 词 之 前 调用 了 lower () 函数 ， 以 便 使 形 如 A 这 样 的 大 写字 母 的 停止 词 首先 转换 
为 小 写字 母 ， 然 后 再 去 除 停止 词 。 


















































import nltk 





from collections import Counter 
import string 


from nltk.corpus import stopwords 


def get_tokens(): 
with open('/home/d/TRY/NLTK/STOP.txt') as stopl: 
tokens = nltk.word tokenize(stopl.read().lower(). 





translate (None, string.punctuation) ) 
return tokens 


if name == main 








tokens = get tokens () 
print ("tokens[:20]=%s") %(tokens[:20]) 





countl = Counter(tokens) 
print ("before: len(countl) = $s") %(len(countl) ) 
filteredl = [w for w in tokens if not w in stopwords. 


words ('english') ] 


print ("filteredl tokens[:20]=%s") $(filtered1[:20]) 





countl = Counter (filtered1) 
print ("after: len(countl) = $s") $(len(count1)) 


print("most common = $s") 


$(count.most common (10)) 


taggedl = nltk.pos tag(filteredl) 
print ("tagged1[:20]=%s") 


8.1.2 ”使 用 回 量 空间 模型 进行 信息 检索 


在 向 量 空间 模型 中 ， 所 有 的 文档 都 使 








$ (tagged1[:20]) 





























] 向 量 来 表示 。 将 文档 表示 为 向 量 的 方法 之 一 是 


使 用 TF-IDF( 词 频 - 反 文 档 频 率 ，Term Frequency-Inverse Document Frequency ). 


ae 
a 


数 。 它 也 可 以 被 定义 为 给 定 文档 
司 频 (TF) 的 公式 如 下 : 








a 
a 


P diced 











TF(t,d) = 0.5 + (0.5 * f(t,d)) / max {f(w,d) : wed} 


IDF 可 以 认为 是 反 文档 频率 ， 也 可 以 认为 其 是 
通过 将 给 定 的 语料库 中 存在 的 文档 总 数 除 以 包含 某 特定 标识 符 的 文档 数 ， 再 取 商 的 对 




















数 就 可 以 计算 IDF。 





IDF DWAR ARRU TF: 


IDF(t,D)= log(N/{deD :ted}) 





出 现 的 总 次 数 。 


























语料库 








通过 将 以 上 两 个 评分 相 乘 可 以 获取 TF-IDF 评分 ， 表 示 如 下 : 
TF-IDF(t, d, D) = TF(t,d) * IDF(t,D) 


TF-IDF 提供 了 一 个 特征 项 在 给 定 的 文档 9 


为 了 计算 一 篇 给 定 文档 的 TF-IDF， 需 要 执行 如 下 步骤 ; 





。 文档 切 分 。 
。 计算 向 量 空间 模型 。 


。 计算 每 个 文档 的 TF-IDF。 















































文档 切 分 是 一 个 首先 将 文本 切 分 为 句子 ， 然 后 再 将 独立 的 句子 切 分 为 上 




















后 我 们 可 以 删除 在 信息 检索 的 过 程 中 没有 意义 的 单词 《也 叫 停止 词 )。 


= 




















证 我 们 来 看 看 下 面 的 代码 ， 























其 可 用 














} 





于 对 语料库 


的 每 个 文档 执 





Yes 


1T 


vJ 





FPF 包 含 给 定 特 征 项 的 文档 数目 。 


司 频 可 以 被 定义 为 一 个 给 定 的 标识 符 在 文档 中 出 现 的 总 数 除 以 该 文档 中 标识 符 的 总 
FE 项 出 现 的 频率 。 
































M 


JJ: 


出 现 频率 的 估计 以 及 该 特征 项 在 语料库 中 




















词 的 过 程 。 之 
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authen = OAuthHandler (CLIENT ID, CLIENT SECRET, CALLBACK) 
authen.set access token (ACCESS TOKEN) 
ap = API (authen) 
































venue = ap.venues (id-'4bd47eeb5631c9b69672a230') 
stopwords = nltk.corpus.stopwords.words('english') 
tokenizer = RegexpTokenizer("[\w']+", flags=re.UNICOD 











Fl 


def freq(word, tokens): 
return tokens.count (word) 


#Compute the frequency for each term. 
vocabulary = [] 

docs = {} 

all tips = [] 

for tip in (venue.tips()): 





tokens = tokenizer.tokenize(tip.text) 





bitokens = bigrams (tokens) 











tritokens = trigrams (tokens) 

tokens = [token.lower() for token in tokens if len(token) > 2] 
tokens = [token for token in tokens if token not in stopwords] 
bitokens = [' '.join(token).lower() for token in bitokens] 

bitokens = [token for token in bitokens if token not in stopwords] 
tritokens = [' '.join(token).lower() for token in tritokens] 
tritokens = [token for token in tritokens if token not in stopwords] 
ftokens = [] 


ftokens.extend(tokens) 
ftokens.extend(bitokens) 








ftokens.extend(tritokens) 
docs[tip.text] = {'freq': {}} 


for token in ftokens: 
docs[tip.text]['freq'] [token] = freq(token, ftokens) 





print docs 
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是 tf 向 量 的 标准 化 。 让 我 们 来 看 看 下 面 



































j 于 执行 c£ 向量 标准 化 的 代码 : 




















authen = OAuthHandler(CLIENT ID, CLIENT SECRET, CALLBACK) 
authen.set access token(ACCESS TOKEN) 
ap = API(auth) 



































venue = ap.venues (id-'4bd47eeb5631c9b69672a230') 
stopwords = nltk.corpus.stopwords.words('english') 
tokenizer = RegexpTokenizer("[\w']+", flags=re.UNICOD 





Fl 





def freq(word, tokens): 
return tokens.count (word) 


def word count (tokens): 





return len(tokens) 


def tf(word, tokens): 
return (freq(word, tokens) / float(word count (tokens) ) ) 


#Compute the frequency for each term. 
vocabulary = [] 

docs = {} 

all tips = [] 

for tip in (venue.tips()): 





tokens = tokenizer.tokenize(tip.text) 





bitokens = bigrams (tokens) 








tritokens = trigrams(tokens) 

tokens = [token.lower() for token in tokens if len(token) > 2] 
tokens = [token for token in tokens if token not in stopwords] 
bitokens = [' '.join(token).lower() for token in bitokens] 

bitokens = [token for token in bitokens if token not in stopwords] 
tritokens = [' '.join(token).lower() for token in tritokens] 
tritokens = [token for token in tritokens if token not in stopwords] 





ftokens = [] 
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ftokens.extend(tokens) 
ftokens.extend(bitokens) 





ftokens.extend(tritokens) 
docs[tip.text] = ('freq': {}, 'tf': {}} 


for token in ftokens: 
The Computed Frequency 





docs[tip.text]['freq'] [token] = freq(token, ftokens) 
Normalized Frequency 
docs[tip.text]['tf'] [token] = tf(token, ftokens) 





print docs 














我 们 来 看 看 以 下 用 于 计算 TF-IDF 值 的 代码 : 






































authen = OAuthHandler (CLIENT ID, CLIENT SECRET, CALLBACK) 
authen.set access token (ACCESS TOKEN) 
ap = API (authen) 























venue = ap.venues (id-'4bd47eeb5631c9b69672a230') 
stopwords = nltk.corpus.stopwords.words('english') 
tokenizer = RegexpTokenizer("[\w']+", flags=re.UNICOD 





Fl 





def freq(word, doc): 
return doc.count (word) 


def word count (doc): 
return len(doc) 


def tf(word, doc): 
return (freq(word, doc) / float(word count (doc))) 


def num docs containing (word, list of docs): 
count = 0 

for document in list_of docs: 

if freq(word, document) > 0: 

count += 1 
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return 1 + count 


def idf(word, list of docs): 
return math.log(len(list of docs) / 
float (num docs containing (word, list of docs))) 


#Compute the frequency for each term. 
vocabulary = [] 

docs = {} 

all tips = [] 

for tip in (venue.tips()): 

tokens = tokenizer.tokenize(tip.text) 








bitokens = bigrams (tokens) 











tritokens = trigrams (tokens) 

tokens = [token.lower() for token in tokens if len(token) > 2] 
tokens = [token for token in tokens if token not in stopwords] 
bitokens = [' '.join(token).lower() for token in bitokens] 

bitokens = [token for token in bitokens if token not in stopwords] 
tritokens = [' '.join(token).lower() for token in tritokens] 
tritokens = [token for token in tritokens if token not in stopwords] 
ftokens = [] 





ftokens.extend(tokens) 
ftokens.extend(bitokens) 





ftokens.extend(tritokens) 
docs[tip.text] = ('freq': {}, 'tf': (), 'idf': {}} 


for token in ftokens: 

#The frequency computed for each tip 
docs[tip.text]['freq'] [token] = freq(token, ftokens) 
#The term-frequency (Normalized Frequency) 
docs[tip.text]['tf'] [token] = tf(token, ftokens) 








vocabulary.append(ftokens) 


for doc in docs: 
for token in docs[doc]['tf']: 
#The Inverse-Document-Frequency 





168 第 8 章 信息 检索 : 访问 信息 
docs[doc] ['idf'] [token] = idf(token, vocabulary) 


print docs 









































可 以 通过 找 出 TF 和 IDF 的 乘积 来 计算 TF-IDF 值 。 当 出 现 高 特征 项 频率 和 低 文 档 频 率 
时 ， 计 算 所 得 到 的 TF-IDF 值 就 比较 大 。 


证 我 们 来 看 看 如 下 的 代码 ， 其 用 于 计算 文档 中 每 个 特征 项 的 TF-IDF 值 : 






































authen = OAuthHandler (CLIENT ID, CLIENT SECRET, CALLBACK) 
authen.set access token (ACCESS TOKEN) 
ap = API (authen) 






































venue = ap.venues (id-'4bd47eeb5631c9b69672a230') 
stopwords = nltk.corpus.stopwords.words('english') 
tokenizer = RegexpTokenizer("[\w']+", flags=re.UNICODE) 








def freq(word, doc): 
return doc.count (word) 


def word count (doc): 
return len(doc) 


def tf(word, doc): 
return (freq(word, doc) / float (word count (doc) )) 


def num docs containing(word, list of docs): 
count = 0 

for document in list_of docs: 

if freq(word, document) > 0: 

count += 1 

return 1 + count 


def idf(word, list_of docs): 
return math.log(len(list of docs) / 
float (num docs containing (word, list of docs))) 


def tf idf(word, doc, list of docs): 
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return (tf(word, doc) * idf(word, list of docs) ) 


#Compute the frequency for each term. 


vocabulary = [] 

docs = {} 

all tips = [] 

for tip in (venue.tips()): 

tokens = tokenizer.tokenize(tip.text) 








bitokens = bigrams (tokens) 





tritokens = trigrams (tokens) 

tokens = [token.lower() for token in tokens if len(token) > 2] 
tokens = [token for token in tokens if token not in stopwords] 
bitokens = [' '.join(token).lower() for token in bitokens] 
bitokens = [token for token in bitokens if token not in stopwords] 
tritokens = [' '.join(token).lower() for token in tritokens] 
tritokens = [token for token in tritokens if token not in stopwords] 
ftokens = [] 

ftokens.extend(tokens) 

ftokens.extend(bitokens) 

ftokens.extend(tritokens) 














docs[tip.text] = ('freq': {}, 'tf': (), 'idf': {}, 


for 


'tf-idf': {}, 'tokens': []} 


token in ftokens: 
#The frequency computed for each tip 





docs[tip.text]['freq'] [token] = freq(token, ftokens) 





#The term-frequency (Normalized Frequency) 





docs[tip.text]['tf'] [token] = tf(token, ftokens) 
docs[tip.text]['tokens'] = ftokens 


vocabulary.append(ftokens) 


for 
for 


doc in docs: 
token in docs[doc]['tf']: 
#The Inverse-Document-Frequency 








docs[doc]['idf'][token] = idf(token, vocabulary) 

fThe tf-idf 
docs[doc]['tf-idf'][token] = tf idf(token, docs[doc]['tokens'], 
vocabulary) 


#Now let's find out the most relevant words by tf-idf. 
words = {} 
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for doc in docs: 
for token in docs[doc]l['tf-idf']: 


if token not in words: 
words[token] = docs[doc]['tf-idf' 
else: 


[token] 


if docs[doc]['tf-idf'][token] » words[token]: 
words[token] = docs[doc]['tf-idf' 


for item 


in sorted(words.items(), 





9. 


print "$f «- $s" $ (item[1], item 


让 我 们 来 看 看 如 下 可 用 于 映射 关键 词 到 


>>> def getVectkeyIndex(self,documentList): 


























vocabString="_ ".join (document 
vocab 


vocabList=self.parser.removeS 


[token] 


0]) 


n] ARCA RO: 





List) 
List-self.parser.tokenise(vocabString) 


topWords (vocabList) 








uniquevocabList-util.removeDuplicates (vocabList) 


vectorIndex-í()] 
offset=0 


for word 





in uniquevocabList: 


vectoriIndex [word] =offset 
offsett=1 
return vectorIndex 


让 我 们 来 看 看 如 下 可 用 于 映射 文档 字符 





























串 到 向 量 的 代码 : 


>>> def makeVect(self,wordString): 








vector-[0 


word 


word 





List=self.parser.tokenise 





for word in wordList: 





*len(self.vectorkeywordIndex) 


(wordString) 


List-self.parser.removeStopWords (wordList) 





vector[self.vectorkeywordIndex [word] ]+=1; 


return vector 


8.2 和 问 量 空间 评分 及 查询 操作 符 关 联 


向 量 空 间 模型 以 词组 向 量 的 形式 来 

















量 空间 模型 。 








因此 ， 可 以 很 容易 地 计算 出 向 





量 间 的 相似 度 。 




















向 量 大 小 用 于 表示 我 们 所 使 用 的 代表 了 


























可 以 使 用 基于 








窗口 的 方法 和 基于 依赖 的 方法 。 在 基于 窗口 的 方法 中 ， 


特定 上 下 文 的 向 量 的 大 小 。 














key-lambda x: x[1], reverse=True): 


示意 义 。 使 用 线性 代数 可 以 很 容易 地 构建 一 个 向 


对 于 上 下 文 建 模 ， 
根据 特定 大 小 的 窗口 
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内 出 现 的 单词 来 确定 上 下 文 ; 在 基于 依赖 的 方法 中 ， 当 存在 一 个 单词 与 其 相应 的 目标 词 具 
有 特定 的 句法 关系 时 ， 就 可 以 确定 上 下 文 。 可 以 对 特征 或 上 下 文 单词 执行 词 干 提取 和 词 形 
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还 原 。 相 似 性 度量 可 








Lets see the following lis 


j 于 计算 两 个 向 
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之 间 的 相似 性 。 


里 





t of similarity metrics: 







































































Measure Definition 
1 
Euclidean 7 7 
1+ 427a (u; — v;) 
Cityblock : 
itybloc TS 
1+ Diy lu; =y; | 
Chebysh l 
ebyshev 
1 14- max, |u; — v; | 
; uv 
Cosine 
[u liv] 
U— (v- 
Correlation (= Hi) 7 Hy) 
[u liv] 
DS 2}; y min(u;,v;) 
Xio U; t Vi 
T d u.v 
accar = 
Xio U; +V; 
Y o min(u; v; 
Jaccard2 PUELLA TIME 
Dio max(u;,v;) 
Lin 之 六 0 u; +Y; 
Ju|+|v| 
; u.v 
Tanimoto i aN oe a 
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1 + + 
—| Diu HEY +D v Ee: 
Jensen-Shannon Div 1 2 2 2 
421og2 
Diu || «v - (l-au) 
a-skew 1 
421og2 


加 权 方 案 是 男 一 个 非常 














要 的 术语 ， 因 为 它 提供 了 给 定 上 下 文中 与 目标 词 更 相关 的 信息 。 











172 #82 


让 我 们 来 看 看 可 以 想到 的 加 权 方 案 列表 : 


信息 检索 ;访问 信息 










































































Scheme Definition 
None wifi 
TF-IDF 
N 
Wy = log( f; )xlog — 
n; 
j 
TF-ICF 
N 
Wy = log( f; ) x log — 
fj 
Okapi BM25 7 fi i N-n; +0.5 
"y To UE 
0.5+1.5x 22+ fy qoum 
f; 
J 
ATC 
[fos +0.5x A oe) 
mas y nj 
um 
N11 0.5+0.5x EM ug 
max, n; 
LTU N 
(log( f;; )+1.0) log 7 
Hj j : 
0.84-0.2x f; x — 
e 
MI P(t; |cj) 
P(t, )P(c;) 
PosMI max(0,MT) 
T-Test 
_ Pity [c;) - P(t; )P(c;) 
ij 
P(t; )P(c;) 
x See(Curran,2004,p.83) 
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BERS 
Scheme Definition 
Lin98a fg xf 
Wj = 
Six fj 
Lin98b 


idee 
w.. = -lxlog— 
i gy 





Gref 94 log fi +1 
Wi = 





H logn; +1 





8.3 使 用 隐 性 语义 索引 开发 IR 系统 








在 最 小 训练 集 的 帮助 下 ， 隐 性 语义 索引 可 用 于 执行 文本 分 类 。 

隐 性 语义 索引 是 一 种 可 用 于 处 理 文本 的 技术 ， 它 可 以 执行 以 下 任务 : 
。 文本 自动 分 类 。 

RR 

© 跨 语 言 信 息 检索 。 


隐 性 语义 方法 可 以 认为 是 一 种 信息 检索 和 索引 的 方法 ， 它 使 用 了 一 种 被 称 为 奇异 值 矩 
阵 分 解 〈Singular Value Decomposition, SVD) 的 数学 方法 。SVD 用 于 模式 (与 给 定 的 非 结 
构 化 文本 中 的 概念 具有 特定 关系 ) 的 识别 。 


隐 性 语义 索引 的 一 些 应 用 如 下 : 

。 信息 探索 。 

© 文档 自动 分 类 与 文本 摘要 (电子 探索 、 出 版 )。 
。 关系 探索 。 

。 自动 生成 个 人 和 组 织 的 链接 图 表 。 
。 将 技术 论文 和 资助 与 审阅 者 相 匹 配 。 
。 在 线 客服 。 

。 确定 文档 作者 身份 。 
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自动 标注 图 像 关键 词 。 
。 理解 软件 源 代码 。 

。 过 滤 垃 圾 邮件 。 

。 信息 可 视 化 。 

。 论文 评分 。 


。 基于 文献 的 知识 探索 。 


8.4 文本 摘要 



































文本 摘要 是 为 一 个 给 定 的 长 文本 生成 摘要 的 过 程 。 基 于 Luhn 出 版 的 著作 The Automatic 





Creation of Literature Abstracts (1958)， 人 们 开发 了 一 种 被 称 作 

法 。 它 使 用 单词 的 频率 来 完成 句子 的 计算 和 提取 ， 这 些 句 子 由 上 

使 用 该 方法 ， 就 可 以 通过 提取 少量 特定 的 句子 来 完成 文本 摘要 。 
让 我 们 来 看 看 如 下 NLTK 中 可 用 于 执行 文本 摘要 的 代码 : 





















































NaiveSumm 的 朴素 归纳 方 
上 现 频率 最 高 的 单词 组 成 。 











from nltk.tokenize import sent tokenize,word tokenize 


from nltk.corpus import stopwords 
from collections import defaultdict 
from string import punctuation 

from heapq import nlargest 


class Summarize Frequency: 
def | init (self, cut min-0.2, cut max-0.8): 


"mnm 


Initilize the text summarizer. 





Words that have a frequency term lower than cut min 


or higer than cut max will be ignored. 


"nnm 


self. cut min - cut min 
self. cut max - cut max 
self. stopwords = set(stopwords.words('english') + 


list (punctuation) ) 








def compute frequencies(self, word sent): 


"mmm 


Compute the frequency of each of word. 
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Input: 
word sent, a list of sentences already tokenized. 
Output: 
freq, a dictionary where freq[w] is the frequency of w. 
"nn 
freq = defaultdict (int) 
for s in word sent: 
for word in s: 
if word not in self. stopwords: 
freq[word] += 1 
# frequencies normalization and filtering 
m = float (max(freq.values())) 
for w in freq.keys(): 
freq[w] = freq[w]/m 
if freq[w] »- self. cut max or freq[w] «- self. cut min: 
del freq[w 
return freq 





def summarize(self, text, n): 


"mmm 





list of (n) sentences are returned. 
summary of text is returned. 
now ow 
sents = sent tokenize (text) 
assert n «- len(sents) 








word sent = [word tokenize(s.lower()) for s in sents] 





self. freq = self. compute frequencies (word sent) 
ranking = defaultdict (int) 


for i,sent in enumerate (word sent): 





for w in sent: 
if w in self. freq: 
ranking[i] += self. freq[w] 
sents idx - self. rank(ranking, n) 
return [sents[j] for j in sents idx] 


def _rank (self, ranking, n): 
""" return the first n sentences with highest ranking """ 
return nlargest(n, ranking, key-ranking.get) 


























在 执行 信息 检索 任务 的 过 程 中 ， 以 上 代码 计算 了 每 个 单词 的 词 频 ， 出 现 频率 最 高 的 单 
词 如 限定 词 等 没有 多 大 用 处 ， 因 此 可 以 删除 。 
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8.5 问答 系统 























问答 系统 指 的 是 智能 系统 ， 基 于 存储 在 知识 库 中 的 某 些 事实 或 规则 ， 其 可 用 于 为 用 户 
的 提问 提供 答案 。 因 此 一 个 问答 系统 提供 正确 答案 的 准确 率 取决 于 存储 在 知识 库 中 的 规则 
或 事实 。 

问答 系统 中 涉及 的 众多 难题 之 一 便 是 如 何在 系统 中 表示 问题 和 答案 。 可 以 先 检索 出 答 
案 ， 然 后 使 用 文本 摘要 或 文本 解析 来 表示 它 。 问 答 系统 中 涉及 的 另 一 个 难题 是 如 何在 知识 
库 中 表示 问题 及 其 相应 的 答案 。 

为 了 构建 一 个 问答 系统 ， 我 们 可 以 应 用 各 种 各 样 的 方法 ， 例 如 命名 实体 识别 、 信 息 检 
索 、 信 息 提取 等 。 


问答 系统 包含 三 个 阶段 : 












































































































































。 提取 事实 
e 理解 问题 
。 生成 答案 









































为 了 理解 特定 领域 的 数据 并 生成 给 定 查询 的 响应 ， 需 要 进行 事实 提取 。 

可 以 使 用 如 下 两 种 方式 来 执行 事实 的 提取 : 提取 实体 和 提取 关系 。 实 体 或 专 有 名 词 的 
提取 过 程 被 称 作 NER， 关 系 的 提取 建立 在 从 文本 中 提取 的 语义 信息 的 基础 之 上 。 

理解 问题 涉及 基于 给 定 的 文本 来 生成 一 个 解析 树 。 

生成 答案 涉及 为 给 定 的 查询 获取 最 有 可 能 且 能 够 被 用 户 理解 的 答案 。 

让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 其 可 用 于 接受 用 户 的 查询 。 可 以 通过 删除 其 停止 
词 来 处 理 该 查询 ， 以 便 可 以 在 后 续 的 处 理 步骤 中 执行 信息 检索 。 













































































import nltk 


from nltk import * 





import string 





print "Enter your question" 

ques=raw input () 

ques=ques.lower () 
stopwords-nltk.corpus.stopwords.words('english') 
cont-nltk.word tokenize (question) 

analysis keywords-list( set(cont) -set(stopwords) ) 
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8.6 小 结 

在 本 章 中 ， 我 们 讨论 了 信息 检索 ， 主 要 学 习 了 停止 词 删除 。 为 了 可 以 更 快 地 执行 信息 
检索 和 文本 摘要 任务 ， 我 们 删除 了 停止 词 。 此 外 我 们 还 讨论 了 文本 摘要 、 问 答 系 统 和 向 量 
空间 模型 等 的 实现 。 





在 下 一 章 中 ， 我 们 将 学 习 语 篇 分 析 和 指 代 消 解 的 概念 。 
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语 篇 分 析 是 自然 语言 处 理 的 另 一 种 应 用 。 语 篇 分 析 可 以 认为 是 确定 上 下 文 信息 〈 语 境 ) 
的 过 程 ， 这 些 信息 有 助 于 执行 其 他 类 型 的 任务 , 例如 ; 指 代 消 解 Canaphora resolution, AR) 
(随后 我 们 将 在 本 章 讨 论 这 一 部 分 内 容 〉 以 及 NER 等 。 

本 章 将 涵盖 以 下 主题 : 

e 语 篇 分 析 简 介 。 

。 使 用 中 心理 论 执行 语 篇 分 析 。 

。 指 代 消解 。 
9.1 语 篇 分 析 简 介 

语言 学 术语 单词 discourse 是 指使 用 中 的 语言 。 语 篇 分 析 可 以 认为 是 执行 文本 或 语言 分 
析 的 过 程 ， 其 包含 了 文本 解释 以 及 对 社交 互动 的 理解 。 语 篇 分 析 可 能 涉及 对 语素 、n 元 语 
法 模型 、 时 态 、 口 语 范畴 以 及 页 面 布局 等 的 处 理 。 语 篇 可 以 认为 是 一 个 有 序 的 句子 集 。 

在 大 多 数 情况 下 ， 基 于 其 前 面 的 句子 ， 我 们 可 以 解释 一 个 句子 的 含义 。 
































考虑 如 下 话语 "John went to the club on Saturday. He met Sam."， 这 里 He 指 的 是 John. 








人 们 开发 语 篇 表述 到 
方法 ， 开 发 语 篇 表述 结构 (Discourse Representation Structure, DRS) 月 
指称 对 象 和 条 件 的 帮助 下 )。 语 篇 指称 对 象 是 指 在 





(在 语 篇 

















篇 中 正在 考虑 的 导 


有 物 。 语 篇 表述 结构 的 条 伯 


Eve (Discourse Representation Theory, DRT) H 








于 提供 执行 AR 的 
日 于 提供 语 篇 的 含义 

















阶 逻 辑 中 使 








j 的 变量 以 及 在 语 



































是 指 在 一 阶 谓 

















词 罗 辑 中 使 用 的 原子 公式 。 


人 们 开发 一 阶 谓 词 逻 辑 (First Order Predicate Logic, FOPL) 用 于 扩展 








FOPL 涉及 函数 、 参 数 和 量词 的 使 

















在 FOPL 4 











让 我 们 来 看 一 个 有 关 语 篇 表述 结构 的 例子 ， 如 图 


用 。 两 种 类 型 的 量词 (也 就 是 通 月 
于 表示 常规 的 句子 。 在 FOPL +, 也 使 用 了 着 


FP 可 以 表示 为 bird (robin). 



































上 图 是 下 面 句 子 的 一 种 表述 : 





1. John went to a club. 

2. John went to a club. He met Sam. 
这 里 ， 该 语 篇 昌 

理 DRS， 需 要 将 其 转换 为 线性 格式 。 
NLTK 中 用 于 提供 一 阶 谓词 逻辑 









































[实现 的 模块 是 nltk.sem.1ogic, EA UML 图 如 图 
所 示 。 


nltk.sem.logic 模块 用 了 
类 以 及 它们 的 方法 ， 这 些 是 如 








于 定义 一 阶 谓词 逻辑 的 表达 式 。 该 模块 的 UML 类 图 包含 
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命题 逻辑 的 概念 。 
量词 和 存在 量词 ) 用 
E 接 词 、 常 量 和 变量 , 例如 : Robinisabird, 






































9-1 所 示 。 











日 两 个 句子 组 成 。 语 篇 表述 结构 可 以 表述 整个 文本 。 为 了 通过 计算 来 处 




















E 一 阶 谓词 逻辑 中 表示 对 和 象 所 需要 的 ， 所 包含 的 方法 如 下 。 
substitute bindings (bindings): XXH 
































variables (): 该 函数 包含 了 所 





它 用 一 个 特定 的 值 蔡 换 了 表达 式 中 的 变量 。 











里 , binding 表示 变量 到 表达 式 的 映射 ， 




















需要 被 蔡 换 的 变量 集 ， 此 集合 由 
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e replace(variable, expression, replace bound): 该 函数 用 于 蔡 换 变 
量 实例 的 表达 式 ，replace bound 用 于 指定 是 否 需要 替换 绑 定 的 变量 。 


e normalize(): 该 函数 用 于 重 命 名 自动 生成 的 唯一 变量 。 


e visit(self,function,combinatory, default) :该 函数 用 于 访问 调用 函数 
的 子 表 达 式 ， 然 后 结果 被 传递 到 以 一 个 默认 值 开 始 的 组 合子 ， 最 终 返 回 组 合 的 结果 。 


e free(indvar only) :该 函数 用 于 返回 对 象 的 所 有 自由 变量 集 , 如 果 将 indvar_ 
only 设置 为 True， 则 返回 独立 的 变量 。 


。 simplify(): 用 于 简化 表示 对 象 的 表达 式 。 
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NLTK 中 为 语 篇 表述 理论 提供 了 基础 的 模块 是 nLtk.sem.qrt， 它 基于 nltk.sem. 
logic 模块 而 构建 ， 其 UML 类 图 由 继承 自 nltk.sem.logic 模块 的 类 而 组 成 。 以 下 是 
该 模块 中 所 描述 的 方法 : 

。 get refs (recursive): 该 方法 用 于 获得 当前 语 篇 的 指称 对 象 。 

。 fol () : 该 方法 用 于 将 DRS 转换 为 一 阶 谓词 逻辑 。 

。 draw(): 该 方法 在 Tkinter 图 表 库 的 帮助 下 用 于 绘制 DRS。 

让 我 们 来 看 看 nItk .sem. drt 模块 的 UML 类 图 如 图 9-3 所 示 。 
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NLTK 中 可 用 于 访问 WordNet 3.0 的 模块 是 nltk.corpus.reader.wordnet。 
线性 格式 由 语 篇 指称 对 象 和 DRS 条 件 组 成 ， 例 如 : ( [x], [John(x), Went(x)] )。 
让 我 们 来 看 看 如 下 NLIK 中 的 代码 ， 其 可 用 于 实现 DRS: 


>>> import nltk 
>>> expr read = nltk.sem.DrtExpression.from string 
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>>> exprl = expr read('([x], [John(x), Went (x)]1)') 
>>> print (exprl) 

([x], [John(x), Went (x) ]) 

>>> exprl.draw() 

>>> print (exprl.fol()) 

exists x.(John(x) & Went (x) ) 








以 上 NLTK 的 代码 将 绘 出 如 图 9-4 所 示 的 图 像 。 


(ae 











x 
John(x) 
Went(x) 























图 9-4 

















这 里 ， 通 过 使 用 方法 fol () ， 表 达 式 被 转换 为 FOPL。 
让 我 们 来 看 看 如 下 NLTK 中 有 关 另 一 个 表达 式 的 代码 ; 


>>> import nltk 

>>> expr read = nltk.sem.DrtExpression.fromstring 

>>> expr2 = expr read('([x,yl, [John(x), Went (x),Sam(y),Meet(x,y)1) ') 
>>> print (expr2) 

([x,y]l, [John (x), Went (x), Sam(y), Meet(x,y) ]) 

>>> expr2.draw() 

>>> print (expr2.fol()) 

exists x y.(John(x) & Went(x) & Sam(y) & Meet (x, y)) 









































fol () 函数 用 于 获取 表达 式 的 一 阶 谓词 逻辑 等 价 物 。 以 上 代码 将 显示 如 图 9-5 所 示 的 图 像 。 
er | 


xy 
John(x) 
Went(x) 
Sam(y) 
Meet(x, y) 





























图 9-5 








通过 使 用 DRS 级 联运 算 符 〈+)， 我 们 可 以 执行 两 个 DRS 的 级 联 。 让 我 们 来 看 看 如 下 
NLTK 中 的 代码 ， 其 可 用 于 执行 两 个 DRS 的 级 联 : 


>>> import nltk 

>>> expr read = nltk.sem.DrtExpression.fromstring 
>>> expr3 = expr read('([x], [John(x), eats (x)])+ 
([y1, [Sam(y),eats(y)])") 

>>> print (expr3) 

(([x], [John (x), eats(x)]) + (ly], [Sam(y), eats(y)])) 
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>>> print (expr3.simplify()) 
([x,y], [John (x), eats(x), Sam(y), eats(y)]) 
>>> expr3.draw() 


以 上 代码 绘 出 了 如 图 9-6 所 示 的 图 像 。 


f or (=| Sl) X jJ 





x y 
John(x)| * |Sam(y) 


























eats(x) | |eats(y) 
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iXH, simplify O 函数 用 于 简化 表达 式 。 
让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 其 可 用 于 将 一 个 DRS 先入 到 另 一 个 当中 : 




















>>> import nltk 





>>> expr read = nltk.sem.DrtExpression.fromstring 
>>> expr4 = expr read('([],[(([x], [student (x) ])- 


>([y], [book (y),read(x,y)]))1])") 
>>> print (expr4.fol()) 
all x.(student(x) -> exists y.(book(y) & read(x,y))) 


让 我 们 来 看 看 另 一 个 例子 ， 其 可 用 于 组 合 两 个 句子 。 这 里 使 用 了 PRO, resolve_ 
anaphora () 函数 用 于 执行 AR: 






































>>> import nltk 





>>> expr read = nltk.sem.DrtExpression.fromstring 





>>> expr5 = expr read('([x,y], [ram(x),food(y),eats(x,y)])') 
>>> expr6 = expr read('([u,z],[PRO(u),coffee(z),drinks(u,z)])') 





>>> expr7=expr5+expr6 
) 


>>> print (expr7.simplify() 
([u,x,y,z],lram(x), food(y), eats(x,y), PRO(u), coffee(z), 


drinks (u,z)]) 
>>> print(expr7.simplify().resolve anaphora()) 





([u,x,vy,z],lram(x), food(y), eats(x,y), (u = [x,y,z]), coffee(z), 
drinks(u,z)]) 


9.1.1 “使 用 中 心理 论 执行 语 篇 分 析 
使 用 中 心理 论 执行 语 篇 分 析 是 进行 语料库 注解 的 第 一 步 
在 中 心理 论 中 ， 为 了 实现 分 析 ， 我 们 需要 执行 将 语 篇 分 割 成 


中 心理 论 包含 以 下 内 容 : 























它 还 包含 执行 AR 的 任务 。 
种 单元 的 任务 。 

















区 ~ 
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语 篇 参与 者 的 目的 或 意图 与 语 篇 之 间 的 互动 。 
参与 者 的 注意 。 














中 心 与 参与 者 的 关注 点 以 及 局 部 和 整体 结构 如 何 影响 语 篇 的 表达 和 连贯 性 有 关 。 


9.1.2 








指 代 消解 





AR 可 以 定义 为 这 样 的 一 个 过 程 : 通过 AR 可 以 解析 句 中 所 使 用 的 代词 或 名 词 短语 , 并 






































基于 语 境 信息 来 指 代 特定 的 实体 。 


例如 : 


John helped Sara. He was kind. 

















这 里 ，He 指 代 的 是 John。 





代名词 Dronompal 这 里 , 通过 代词 来 指 代 指 称 对 象 。 例如 : Sam found the love 
ofhis life。 这 里 ，his 指 代 Sam。 

有 定名 词 短 语 (Definite noun phrase): 这 里 ， 可 以 通过 <the> <noun phrase> 
E 式 来 指 代 先行 语 。 例 如 : The relationship could not last long. iX 
里 ，The relationship 指 代 的 是 上 一 句 中 的 the love. 

量词 /序数 : 量词 (如 one) 和 序数 (如 first) 也 是 AR 的 例子 。 例 如 : He pegan a 
new one。 这 里 ，one 指 代 的 是 the relationship。 



































在 预 指 中 ， 指 称 对 象 在 先行 语 之 前 。 例 如 : After his class,Samwill go home. 
XE, his 指 代 的 是 Sam. 


为 了 在 NLTK 架构 中 集成 某 些 扩展 ， 人 们 基于 现 有 的 模块 nltk.sem.logic 和 















































nltk.sem.drt 开发 出 了 一 个 新 模块 ， 新 模块 就 像 是 nltk.sem.drt 模块 的 一 个 蔡 代 ， 
增强 的 类 蔡 换 了 所 有 的 类 。 


























KAR AbstractDRS 的 一 个 叫 作 resolve () 的 方法 可 以 被 间接 和 直接 地 调用 ， 然 
后 该 方法 可 以 提供 一 个 列表 ， 该 列表 由 一 个 特定 对 象 的 已 解析 副本 所 组 成 ， 需 要 被 解析 的 
对 象 必须 重 写 方法 readings () 。 通 过 使 用 traverse 0 函数 ，resolve 0 方法 可 用 于 
生成 读数 , traverse () 函数 可 用 于 对 操作 列表 执行 排序 。 优 先 级 顺序 列表 包括 以 下 内 容 : 































































































绑 定 操作 。 


。 局 部 纳入 操作 。 
。 中 级 纳入 操作 。 
。 全 局 纳入 操作 。 
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让 我 们 来 看 看 以 下 有 关 traverse () 函数 执行 的 流程 图 如 图 9-7 所 示 。 


































Sort 
operations 
by type 








Store the 
reading 









create 
reading 









do 
inference 
check? 





























is get 






operation operation 
list list for the 
empty?, reading 






run 
traverse() 
on the 
operation 
list 


false 











is 
operation 





a 
binding? 


store the 
reading 








当 生 成 了 操作 的 优先 级 顺序 之 后 
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， 将 会 发 生 如 下 操作 : 


e 在 deepcopy() 方 法 的 帮助 下 从 操作 生成 了 readings， 当 前 的 操作 将 作为 参数 。 


e 当 运 行 readings () 函数 时 ， 





执行 了 一 系列 的 操作 。 


。 到 操作 列表 不 为 空 时 ， 运 行 这 些 操作 。 





。 如 果 没 有 剩余 的 操作 要 执行 ， 





则 将 对 最 后 的 reading 运行 可 接受 性 检查 ; 如 果 检 查 
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成 功 了 ， 它 将 被 存储 。 
在 AbstractDrs 类 中 定义 了 resolve() 方 法 ， 该 方法 定义 如 下 : def resolve(self, 


verbose=False) « 


PresuppositionDRS 类 包含 以 下 方法 : 


























e find bindings(drs list, collect event data): 通 过 使 用 is possible 
binding 方法 ， 可 以 从 DRS 实例 列表 中 找 出 绑 定 项 。 如 果 将 collect_event_ 
data 设置 为 True， 那 么 就 完成 了 参与 信息 的 收集 。 

e is possible binding(cond): 该 函数 用 于 找 出 条 件 是 否 为 一 个 绑 定 候选 项 ， 
并 确保 它 是 具有 匹配 触发 条 件 的 特征 的 一 元 谓词 。 

e is presupposition.cond (cond): 该 方法 用 于 在 所 有 条 件 中 标识 出 触发 条 件 。 

e presupposition readings (trail): 它 类 似 于 PresuppositionDRS 子 类 
中 的 readings 函数 。 

让 我 们 来 看 看 继承 自 AbstractDrs 的 类 ， 如 图 9-8 所 示 。 
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让 我 们 来 看 看 继承 自 DrtAbstractVariableExpression 的 类 ， 如 图 9-9 所 示 。 





























让 我 们 来 看 看 继承 自 DrtBooleanExpressionW2, "nf 9-10 所 示 。 












































让 我 们 来 看 看 继承 自 DrtApplicationExpression 的 类 ， 如 图 9-11 Ara. 
让 我 们 来 看 看 继承 自 DRS 的 类 ， 如 图 9-12 所 示 。 
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9.2 小 结 





在 本 章 中 ， 我 们 讨论 了 语 篇 分 析 、 使 用 中 心理 论 执 行 的 语 篇 分 析 以 及 指 代 消 解 。 我 们 
也 讨论 了 使 用 一 阶 谓词 逻辑 构建 的 语 篇 表述 结构 ， 通 过 UML 图 ， 我 们 还 讨论 了 NLIK 是 
如 何 用 于 实现 一 阶 谓 词 逻 辑 的 。 

在 下 一 章 中 ， 我 们 将 讨论 NLP 工具 的 评估 。 我 们 还 将 讨论 用 于 错误 识别 、 词 法 匹配 、 
语法 匹配 以 及 浅 层 语义 匹配 的 各 种 指标 。 
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对 NLP 系统 执行 评估 ， 以 便 我 们 可 以 分 析 一 个 给 定 的 NLP 系统 是 否 产生 了 预期 的 结 
果 以 及 是 否 实现 了 预期 的 性 能 。 通 过 使 用 预定 义 的 指标 可 以 自动 地 执行 评估 ， 或 者 通过 将 
人 类 的 输出 与 NLP 系统 的 输出 进行 对 比 来 手工 地 执行 评估 。 


本 章 将 包含 以 下 主题 : 

。 NLP 系统 评估 要 点 。 

。 NLP 工具 评估 (词性 标注 器 、 词 干 提取 器 及 形态 分 析 器 )。 
。 使 用 黄金 数据 执行 解析 器 评估 。 
。 IR 系统 的 评估 。 
。 错误 识别 指标 。 

。 基于 词汇 搭配 的 指标 。 

。 基于 句法 匹配 的 指标 。 

。 使 用 浅 层 语义 匹配 的 指标 。 


10.1 NLP 系统 评估 要 点 


























































































































































































































对 NLP 系统 执行 评估 是 为 了 分 析 NLP 系统 的 输出 结果 是 否 与 人 类 的 某 个 输出 结果 相 
似 。 如 果 能 够 在 早期 阶段 就 识别 出 模块 中 的 错误 ， 那 么 将 在 很 大 程度 上 降低 NLP 系统 的 校 
正成 本 。 
假设 我 们 想 要 评估 一 个 标注 器 ， 我 们 可 以 通过 对 比 标注 器 与 人 类 的 输 



























































出 结果 来 完成 该 
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操作 。 很 多 时 候 ， 我 们 都 无 法 找到 一 个 公正 或 者 可 以 被 称 为 专家 的 人 ， 因 此 我 们 可 以 构建 
一 个 黄金 标准 测试 数据 来 执行 标注 器 的 评估 。 它 是 一 个 手工 标注 过 的 语料库 ， 并 被 认为 是 
一 个 可 用 于 标注 器 评估 的 标准 语料库 。 如 果 标 注 器 给 出 的 标记 形式 的 输出 与 黄金 标准 测试 
数据 提供 的 输出 相同 ， 我 们 则 认为 标注 器 是 正确 的 。 


创建 黄金 标准 注释 语料库 是 一 项 主要 的 任务 ， 而 且 其 实现 成 本 也 是 非常 昂贵 的 。 它 通 
过 手工 标注 给 定 的 测试 数据 来 完成 该 操作 。 以 这 种 方式 筛选 的 标记 被 视 为 标准 标记 ， 其 可 
用 于 表示 大 范围 的 信息 。 


10.1.1 NLP 工具 的 评估 (词性 标注 禹 、 词 干 提取 器 及 形态 分 析 右 ) 


我 们 可 以 对 各 种 NLP 系统 执行 评估 ， 例 如 词性 标注 器 、 词 干 提取 器 、 形 态 分 析 器 、 基 
T NER 的 系统 以 及 机 器 翻译 器 等 。 考 虑 如 下 NLIK 中 的 代码 , 其 可 用 于 训练 一 个 一 元 语法 
标注 器 。 执 行 完 句子 标注 后 ， 对 其 进行 评估 ， 以 便 验证 标注 器 给 出 的 输出 是 否 与 黄金 标准 
测试 数据 给 出 的 输出 相同 : 















































































































































































































































>>> import nltk 

>>> from nltk.corpus import brown 

>>> sentences-brown.tagged sents(categories-'news') 

>>> sent-brown.sents(categories-'news') 

>>> unigram sent-nltk.UnigramTagger (sentences) 

>>> unigram sent.tag(sent[2008]) 

[('Others', 'NNS'), (',', ','), ('which', 'WDT'), ('are', 'BER'), 
('reached', 'VBN'), ('by', 'IN'), ('walking', 'VBG'), ('up', 'RP'), 
('a', 'AT'), ('single', 'AP'), ('flight', 'NN'), ('of', 'IN'), 
('stairs', 'NNS'), (',', ','), ('have', 'HV'), ('balconies', 'NNS'), 
Cet 

>>> unigram sent.evaluate (sentences) 

0.9349006503968017 








考虑 如 下 NLTK 中 的 代码 ， 其 用 分 离 的 数据 对 一 元 语法 标注 器 执行 了 训练 和 测试 。 
定 的 数据 被 分 为 80% 的 训练 数据 和 20% 的 测试 数据 : 








>>> import nltk 

>>> from nltk.corpus import brown 

>>> sentences-brown.tagged sents(categories-'news') 
>>> sz=int(len(sentences) *0.8) 

>>> sz 

3698 

>>> training sents = sentences[:sz] 
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>>> testing sents-sentences[sz:] 
>>> unigram tagger-nltk.UnigramTagger(training sents) 





>>> unigram tagger.evaluate(testing sents) 
0.8028325063827737 





考虑 如 下 NLTK 中 的 代码 ， 其 展示 了 N-Gram (N 元 语法 ) 标注 器 的 使 用 。 这 里 ， 训 
练 语 料 库 是 由 标注 过 的 数据 组 成 的 。 另 外 ， 在 下 面 的 代码 示例 中 ， 我 们 使 用 了 N-Gram bi 
注 器 的 一 个 特例 ， 即 bigam 〈 二 元 语法 ) 标注 器 : 





















































>>> import nltk 

>>> from nltk.corpus import brown 

>>> sentences-brown.tagged sents(categories-'news') 
>>> sz=int(len(sentences) *0.8) 

>>> training sents = sentences[:sz] 








>>> testing sents-sentences[sz:] 

>>> bigram tagger-nltk.UnigramTagger(training sents) 

>>> bigram tagger-nltk.BigramTagger(training sents) 

>>> bigram tagger.tag (sentences [2008] ) 

[(('Others', 'NNS'), None), ((',', ','), None), (('which', 'WDT'), 





None), (('are', 'BER'), None), (('reached', 'VBN'), None), (('by', 
'IN'), None), (('walking', 'VBG'), None), (('up', 'IN'), None), (('a', 
'AT'), None), (('single', 'AP'), None), (('flight', 'NN'), None), 
(('of', 'IN'), None), (('stairs', 'NNS'), None), ((',', ','), None), 
(('have', 'HV'), None), (('balconies', 'NNS'), None), (('.', '.'), 
None) ] 


>>> un sent-sentences [4203] 
>>> bigram tagger.tag(un sent) 











[(('The', 'AT'), None), (('population', 'NN'), None), (('of', 'IN'), 
None), (('the', 'AT'), None), (('Congo', 'NP'), None), (('is', 'BEZ'), 
None), (('13.5', 'CD'), None), (('million', 'CD'), None), ((',', 
','), None), (('divided', 'VBN'), None), (('into', 'IN'), None), 
(('at', 'IN'), None), (('least', 'AP'), None), (('seven', 'CD'), 
None), (('major', 'JJ'), None), (('^'', '^"'), None), (('culture', 
'NN'), None), (('clusters', 'NNS'), None), (("''", "''"), None), 
(('and', 'CC'), None), (('innumerable', 'JJ'), None), (('tribes', 
'NNS'), None), (('speaking', 'VBG'), None), (('400', 'CD'), None), 
(('separate', 'JJ'), None), (('dialects', 'NNS'), None), (('.', '.'), 
None) ] 





>>> bigram tagger.evaluate(testing sents) 
0.09181559805385615 


另 一 种 标注 方式 可 以 通过 不 同 的 抽样 方法 来 实现 。 在 这 种 方法 中 ， 可 以 通过 bigram 标 
注 器 来 执行 词性 标注 。 如 果 一 个 标记 在 bigram 标注 器 中 找 不 到 ， 则 可 以 使 用 unigram 标注 
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器 的 回 退 方法 。 当 然 ， 





的 





回 退 方法 。 
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让 我 们 来 看 看 如 下 NLTK 中 实现 了 组 合 标注 器 的 代码 ; 


from 


import 


sente 














nltk 











sz=in 
train 
testi 
s0=nl 
sl=nl 
s2-nl 
s2.evaluate (testing sents) 


t (len (sent 


nces)*0.8) 





tk.Default! 


tk.Unigram! 








0.8122260224480948 








语言 学 家 使 用 以 下 线索 





。 句法 线索 。 
e 语义 线索 。 








ng sents-sentences[sz:] 


Tagger ('NNP') 


nltk.corpus import brown 





ing sents = sentences[:sz] 





如 果 一 个 标记 在 unigram 标注 器 中 找 不 到 ， 则 可 以 使 














默认 标注 器 





nces=brown.tagged_sents (categories='news') 


Tagger (training sents, backoff=s0) 


zi 


KE 








来 确 











形态 线索 指 的 是 / 














与 动词 结合 形成 名 词 的 后 绥 


achievement. 














EN 





例如 very. 


RMR TEMA 
在 就 可 以 确定 形容 词 了 。 在 一 个 句子 中 ， 

















AE 








语义 信息 也 可 以 





个 单词 的 类 别 时 很 有 


合 



































能 够 很 容易 地 知道 它 的 类 别 。 


让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 其 可 用 于 语 块 角 














>>> import nltk 


>>> chun 
>>> prin 


chunked sents('train.txt', chunk types-('NP',)))) 


kparser - 





0.44084599507856814 


于 确定 单词 类 别 的 前 


254 
28 M 


个 单词 的 类 别 : 


后 级、 





























所 





中 级 和 词缀 等 信息 。 


， 比 如 establish + ment = establishment 和 achieve + ment 





j 于 确定 单词 的 类 别 。 如 果 已 经 知道 了 

















nltk.RegexpParser ("") 


和 析 器 的 评估 ; 


tk.BigramTagger(training sents,backoff=s1) 





例如 ，ment 是 























] 。 例 如 ， 假 设 我 们 已 经 知道 了 名 词 ， 那 么 现 
词 可 以 出 现在 一 个 名 词 或 者 一 个 单词 之 后 ， 





个 单词 的 含义 ， 那 么 我 们 就 














t(nltk.chunk.accuracy(chunkparser, nltk.corpus.conll2000. 
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证 我 们 来 看 看 另 一 段 NLTK 中 的 代码 ， 其 可 用 于 朴素 语 块 解析 器 的 评估 ， 该 解析 器 可 






































于 寻找 诸如 CD. HJ 等 标记 : 





>>> import nltk 
>>> grammar = r"NP: {<[CDJNP] .*>+}" 


>>> cp = 


nltk.RegexpParser (grammar) 


>>> print (nltk.chunk.accuracy(cp, nltk.corpus.conll2000.chunked 


sents ('train.txt', chunk types-('NP',)))) 
0.8744798726662164 


下 面 的 NLTK 代码 用 于 计算 分 块 数据 的 条 件 频率 分 布 ; 


def chunk tags(train): 





"""Generate a following tags list that appears inside chunks""" 


cfreqdist = nltk.ConditionalFreqDist () 


for t in train: 





for word, tag, chunktag in nltk.chunk.tree2conlltags(t): 


if chtag -- "O": 
cfreqdist[tag].inc(False) 

else: 
cfreqdist[tag].inc(True) 





return [tag for tag in cfreqdist.conditions() if cfreqdist[tag]. 
max() == True] 
>>> training sents = nltk.corpus.conl12000.chunked_sents('train.txt', 


'PRPS', 
'JJR'] 


让 我 们 来 








chunk_types=('NP',)) 
>>> print chunked_tags(train_sents) 
[ 
Y 





'WDT', Vit, 'WP', PDT "ES ET 'NN', 'FW', "POS', 





PRP', 'NNS', 'NNP', 'PDT', 'RBS', 'EX', 'WPS', 'CD', 'NNPS', 'JJS', 


























看 看 如 下 NLTK 中 用 于 执行 chunker 评估 的 代码 。 这 里 ， 使 用 了 两 种 称 为 
guessed 和 correct 的 实体 。guessed 实体 是 由 语 块 解 析 器 返回 的 那些 实体 ，correct 实体 是 那 
些 在 测试 语料库 中 定义 的 语 块 集 : 



























































>>> import nltk 


>>> correct = nltk.chunk.tagstr2tree( 
"[ the/DT little/JJ cat/NN ] sat/VBD on/IN [ the/DT mat/NN ]") 


>>> prin 


t(correct.flatten()) 





(S the/DT little/JJ cat/NN sat/VBD on/IN the/DT mat/NN) 
>>> grammar = r"NP: {<[CDJNP] .*>+}" 


>>> cp = 


nltk.RegexpParser (grammar) 








>>> grammar = r"NP: {<PRP|DT|POS|JJ|CD|N.*>+}" 


194 


第 10 章 NLP 系统 评估 : 性 能 分 析 


>>> chunk parser = nltk.RegexpParser (grammar) 





>>> tagged tok = [("the", "DT"), ("little", "JJg"), ("cat", 
"NN"),("sat", "VBD"), ("on", "IN"), ("the", "DT"), ("mat", "NN")] 


>>> chunkscore = nltk.chunk.ChunkScore() 


>>> guessed = cp.parse(correct.flatten()) 








c 
g 

>>> chunkscore.score(correct, guessed) 
p 


rint (chunkscore) 





ChunkParse score: 
IOB Accuracy: 100.0% 


Precision: 100.0% 
Recall: 100.0% 
F-Measure: 100.0% 











II 


让 我 们 来 看 看 如 下 NLTK 中 的 代码 ， 














chunker: 


提供 一 个 有 益 的 后 


后 


BE 


>>> chunker data = [[(t,c) for w,t,c in nltk.chunk. 


tree2conlltags (chtree)] 
>>> for chtree in nltk.corpus.conll2000.chunked | 


sents('train.txt')] 


>>> unigram chunk = nltk.UnigramTagger(chunker data) 


>>> print nltk.tag.accuracy(unigram chunk, chunker data) 


0.781378851068 


>>> bigram chunk = nltk.BigramTagger(chunker data, backoff-unigram 


chunker) 





>>> print nltk.tag.accuracy(bigram chunk, chunker data) 


0.893220987404 























考虑 下 面 的 代码 ， 其 中 单词 的 后 级 用 于 确定 词性 标记 ， 央 






































AL: 


>>> from nltk.corpus import brown 
>>> suffix freqdist = nltk.FreqDist() 


>>> for wrd in brown.words(): 





wrd = wrd.lower () 
suffix freqdist[wrd[-1:]] += 1 
suffix fdist[wrd[-2:]] += 1 
suffix fdist[wrd[-3:]] += 1 
>>> common suffixes = [suffix for (suffix, count) 


most common (100) ] 
>>> print(common suffixes) 


此 需要 训练 一 个 分 类 器 


可 用 于 评估 一 元 语法 chunker 和 二 元 语法 








TT 











BIR. SAT AL Y ARE ER R ARE E BS 08-18] rp E 


in suffix freqdist. 


piet; inv USES ugh, "diu, EU 'he', "nt. "at, Vor, 'the', 
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bam Meat 'to', "ins Vet. vet 'ed', Und y ps, 'on', rst» 
"gh 'and', 'ng', tart; tast, Ving’, "ts retur. ETT TOLTI 


tret, EPEE, VE Cams. Mo 'm', n i "Ey. ron, es] 


>>> def pos feature (wrd): 
feature = {} 
for suffix in common_suffixes: 
feature['endswith({})'.format (suffix)] = wrd.lower(). 
endswith (suffix) 
return feature 
>>> tagged wrds = brown.tagged wrds (categories-'news') 








>>> featureset = [(pos feature(n), g) for (n,g) in tagged wrds] 
>>> size = int(len(featureset) * 0.1) 

>>> train_set, test_set = featureset[size:], featureset[:size] 
>>> classifierl = nltk.DecisionTreeClassifier.train(train set) 


>>> nltk.classify.accuracy(classifierl, test set) 
0.62705121829935351 


>>> classifier.classify(pos features('cats')) 
"NNS 





>>> print (classifier.pseudocode (depth=4) ) 














if endswith(,) == True: return ',' 
if endswith(,) == False: 
if endswith(the) == True: return 'AT' 
if endswith(the) == False: 
if endswith(s) == True: 
if endswith(is) == True: return 'BEZ' 
if endswith(is) == False: return 'VBZ' 
if endswith(s) -- False: 
if endswith(.) -- True: return '.' 
if endswith(.) == False: return 'NN' 











考虑 如 下 NLTK PARES, SOAP EMEA Ea XX. AEULBOBRA 
进行 了 标记 的 分 配 : 


>>> import nltk 

>>> from nltk.corpus import brown 

>>> sentences = brown.tagged sents(categories-'news') 
>>> sent = brown.sents(categories-'news') 

>>> pattern = [ 

(r'.*ing$', 'VBG'), # for gerunds 
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(r'.*ed$', "VBD'), for simple past 

(eh. *esS',- "VBAZ'), for 3rd singular present 
(r'.*ould$', 'MD'), for modals 

(Xt NES M, CENNS- 3, for possessive nouns 
(r'.*sS$', 'NNS'), for plural nouns 
(c'*-?[0-9]+(.[0-9]+)?S', 'CD'), for cardinal numbers 
tere. NT) for nouns (default) 











>>> regexpr tagger = nltk.RegexpTagger (pattern) 
>>> regexpr tagger.tag(sent[3]) 


a 


POST 'NN'), ('Only', 'NN'), ('a', 'NN'), ('relative', 'NN') 
("handful', 'NN'), ('of', 'NN'), ('such', 'NN'), ('reports', 'NNS'), 
('was', 'NNS'), ('received', 'VBD'), ("''", 'NN'), (',', 'NN'), 
('the', 'NN'), ('jury', 'NN'), ('said', 'NN'), (',', 'NN'), (‘°° 
Lu 


NN'), ('considering', 'VBG'), ('the', 'NN'), ('widespread', 'NN'), 





('interest', 'NN'), ('in', 'NN'), ('the', 'NN'), ('election', ' 


(',', 'NN'), ('the', 'NN'), ('number', 'NN'), ('of', 'NN'), ('voters', 
'NNS'), ('and', 'NN'), ('the', 'NN'), ('size', 'NN'), ('of', 'NN'), 





('this', 'NNS'), (Seley; 'NN'), [T T 'NN!), RT ET "NN') ] 
>>> regexp tagger.evaluate (sentences) 
0.20326391789486245 






































考虑 如 下 用 于 构建 查找 标注 器 的 代码 。 在 构建 查找 标注 器 的 过 程 中 ， 需 要 维护 一 个 常 



























































分 本 





cS None 标记 : 


>>> import nltk 

>>> from nltk.corpus import brown 

>>> freqd = nltk.FreqDist (brown.words (categories-'news')) 
>>> cfreqd = nltk.ConditionalFreqDist (brown.tagged_ 


words (categories-'news')) 








j 单 词 及 其 对 应 的 标记 信息 的 列表 。 因 为 一 些 单词 不 在 最 常用 的 单词 列表 中 ， 所 以 它们 被 


>>> mostfreq words = freqd.most_common (100) 

>>> likelytags = dict((word, cfreqd[word].max()) for (word, _) in 
mostfreq words) 

>>> baselinetagger = nltk.UnigramTagger (model=likelytags) 

>>> baselinetagger.evaluate (brown tagged sents) 

0.45578495136941344 

>>> sent = brown.sents(categories-'news') [3] 

>>> baselinetagger.tag(sent) 

[("oo', toot), ('Only!', None), ('a', 'AT'), ('relative', None), 
('handful', None), ('of', 'IN'), ('such', None), ('reports', None), 











('was', "BEDZ'), ('received', None), Cee, Emmys (rt. Y any 
('the', 'AT'), ('jury', None), ('said', 'VBD'), (',', ','), 


使 月 
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(77, "C'), ('considering', None), ('the', 'AT'), ('widespread', 

None), 

('interest', None), ('in', 'IN'), ('the', 'AT'), ('election', None), 
Mey op t). ('the', "AT'), ('number', None), ('of', 'IN"'), 


( 

('voters', None), ('and', 'CC'), ('the', 'AT'), ('size', None), 
( 7 
Lu 


"of p CINY); (*this', MpTtj; C'eityt*t, None), (nr "Y ey. (t. 
Y 


>>> baselinetagger = nltk.UnigramTagger (model-likely tags, 
sabe backoff-nltk. 
DefaultTagger('NN')) 
def performance (cfreqd, wordlist): 
lt = dict((word, cfreqd[word].max()) for word in wordlist) 
baseline tagger = nltk.UnigramTagger (model-1t, backoff-nltk. 
DefaultTagger('NN')) 
return baseline tagger.evaluate (brown.tagged 








sents (categories-'news')) 


def display(): 
import pylab 


word freqs = nltk.FreqDist (brown.words (categories-'news')).most 
common () 
words by freq = [w for (w, _) in word freqs] 


cfd = nltk.ConditionalFreqDist(brown.tagged 
words (categories-'news')) 

sizes = 2 ** pylab.arange (15) 
perfs = [performance(cfd, words by freq[:size]) for size in sizes] 
pylab.plot(sizes, perfs, '-bo') 
pylab.title('Lookup Tagger Performance with Varying Model Size') 
pylab.xlabel('Model Size') 
pylab.ylabel('Performance') 





pylab.show() 
display () 























让 我 们 来 看 看 如 下 NLTK 中 使 用 了 Lancasterstemmer 进行 词 干 提取 的 代码 。 通 过 
日 黄金 测试 数据 ， 我 们 可 以 完成 这 样 一 个 stemmer 的 评估 : 























>>> import nltk 
>>> from nltk.stem.lancaster import LancasterStemmer 








>>> stri=LancasterStemmer () 
>>> stri.stem('achievement') 


'achiev' 





























考虑 如 下 NLTK 中 的 代码 ,其 可 用 于 设计 一 个 基于 分 类 的 chunker. CEH T CX 
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class ConseNPChunkTagger (nltk.TaggerI): 


def 


def 


. init (self, train sents): 

train set - [] 

for tagsent in train sents: 
untagsent = nltk.tag.untag(tagsent) 
history = [] 
for i, (word, tag) in enumerate (tagsent): 





featureset = npchunk features (untagsent, i, history) 





train set.append( (featureset, tag) ) 
history.append(tag) 
self.classifier = nltk.MaxentClassifier.train ( 
train set, algorithm-'megam', trace=0) 


tag(self, sentence): 
history = [] 


for i, word in enumerate(sentence): 








featureset = npchunk features(sentence, i, history) 
tag = self.classifier.classify(featureset) 
history.append (tag) 

return zip(sentence, history) 


class ConseNPChunker(nltk.ChunkParserI): [4] 


def 


. init (self, train sents): 
tagsent = [[((w,t),c) for (w,t,c) in 
nltk.chunk.tree2conlltags (sent)] 


for sent in train sents] 





self.tagger = ConseNPChunkTagger (tagsent) 





下 面 的 代码 ， 通 过 使 用 一 个 特征 提取 器 执行 了 chunker 的 评 
结果 类 似 于 一 元 语法 chunker: 





>>> def 


parse(self, sentence): 

tagsent = self.tagger.tag (sentence) 

conlltags = [(w,t,c) for ((w,t),c) in tagsent] 
return nltk.chunk.conlltags2tree(conlltags) 
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npchunk features(sentence, i, history): 
word, pos = sentence[i] 
return {"pos": pos} 


>>> chunker = ConseNPChunker(train sents) 
>>> print (chunker.evaluate(test_sents) ) 





10.1 NLP 系统 评估 要 点 199 


ChunkParse score: 


IOB Accuracy: 92.9% 
Precision: 19.9% 
Recall: 86.7% 
F-Measure: 83.2% 








在 下 面 的 代码 中 ， 前 一 个 词性 标记 的 特征 也 被 添加 了 。 这 包括 了 标记 之 间 的 互动 ， 所 
以 该 chunker 的 评估 结果 类 似 于 二 元 语法 chunker: 














>>> def npchunk features(sentence, i, history): 





word, pos = sentence[i] 
if i == 
previword, previpos = "«START»", "<START>" 
else: 
previword, previpos = sentence[i-1] 





return {"pos": pos, "previpos": previpos} 
>>> chunker = ConseNPChunker(train sents) 
>>> print(chunker.evaluate(test sents)) 
ChunkParse score: 





IOB Accuracy: 93.6$ 
Precision: 81.9$ 
Recall: 87.2$ 
F-Measure: 84.5$ 











考虑 以 下 有 关 chunker 的 代码 ， 其 中 添加 了 当前 单词 的 特征 以 便 提 高 chunker 的 性 能 : 











>>> def npchunk features(sentence, i, history): 





word, pos = sentence[i] 
if i == 
previword, previpos = "<START>", "<START>" 
else: 
previword, previpos = sentence[i-1] 
return {"pos": pos, "word": word, "previpos": previpos} 


>>> chunker = ConseNPChunker(train sents) 
>>> print (chunker.evaluate (test sents) ) 
ChunkParse score: 
IOB Accuracy: 94.5 
Precision: 84.2% 
Recall: 89.4% 
F-Measure: 86.7% 





oo 
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让 我 们 来 考虑 如 下 NLTK 中 的 代码 ， 其 中 添加 了 特征 集 ， 例 如 配对 特征 、 前 瞻 特 征 、 
复杂 上 下 文 特征 等 ， 以 便 增强 chunker 的 性 能 : 
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>>> def npchunk features(sentence, i, history): 




















word, pos = sentence[i] 
if i == 
previword, previpos = "<START>", "<START>" 
else: 
previword, previpos = sentence[i-1] 
if i == len(sentence)-1: 
nextword, nextpos = "<END>", "<END>" 
else: 
nextword, nextpos = sentence[itl1] 
return {"pos": pos, 
"word": word, 
"previpos": previpos, 
"nextpos": nextpos, 
"previpostpos": "Sst%s" $ (previpos, pos), 
"postnextpos": "$st$s" $ (pos, nextpos), 
"tags-since-dt": tags since dt(sentence, i)] 
>>> def tags since dt(sentence, i): 
tags = set() 





for word, pos in sentence[:i]: 
if pos == 'DT': 
tags = set() 
else: 
tags.add(pos) 
return '*'.join(sorted(tags)) 





>>> chunker = ConsecutiveNPChunker(train sents) 
>>> print (chunker.evaluate (test sents) ) 





ChunkParse score: 
IOB Accuracy: 96.0% 


Precision: 88.6% 
Recall: 91.0% 
F-Measure: 89.8% 




















通过 使 用 黄金 数据 ， 我 们 也 可 以 执行 形态 分 析 器 的 评估 。 人 类 预期 的 输出 已 经 被 存储 
j 于 形成 一 个 黄金 数据 集合 ， 然 后 将 形态 分 析 器 的 输出 与 黄金 数据 进行 比较 。 


10.1.2 使 用 黄金 数据 执行 解析 如 评 估 


通过 使 用 黄金 数据 或 解析 器 的 输出 所 对 应 的 标准 数据 ， 我 们 可 以 执行 解析 器 的 评估 。 
首先 ， 在 训练 数据 上 执行 解析 器 模型 的 训练 ， 然 后 在 不 可 见 数据 或 测试 数据 上 执行 解析 。 
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LLL més 2 
以 下 两 个 手段 可 用 于 解析 器 性 能 的 评估 : 
e 标记 的 依恋 评分 (Labelled Attachment Score, LAS). 






























































。 标记 的 精确 匹配 (Labelled Exact Match, LEM). 

在 以 上 两 种 情况 下 ， 解 析 器 的 输出 均 与 测试 数据 进行 了 比较 。 一 个 好 的 解析 算法 是 可 
以 给 出 最 高 LAS 和 LEM 评分 的 算法 。 我 们 用 于 解析 的 训练 数据 和 测试 数据 可 以 由 黄金 标 
准 标 记 词 性 标记 来 组 成 ， 因 为 它们 已 经 被 手工 地 分 配 了 。 通 过 使 用 以 下 指标 可 以 执行 解析 
器 的 评估 ， 例 如 召回 率 (Recall). T8585 (Precision) 和 了 fii (F-Measure). 

这 里 ， 精 确 率 可 以 被 定义 为 由 解析 器 产生 的 正确 实体 的 数量 除 以 解析 器 产生 的 实体 的 
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率 可 以 被 定义 为 由 解析 器 产生 的 正确 实体 的 数量 除 以 黄金 标准 解析 树 中 的 实体 的 



























































F 值 可 以 认为 是 召回 率 和 精确 率 的 调和 平均 值 。 


10.2 IR 系统 的 评估 

















IR 也 是 自然 语言 处 理 的 应 用 之 一 。 

以 下 是 在 执行 民 系统 的 评估 时 需要 考虑 的 几 个 方面 : 

。 所 需 资源 。 

。 文档 的 表述 。 

。 市 场 评估 或 用 户 黏 性 。 

。 检索 速度 。 

。 构建 查询 时 的 协助 。 

。 查找 所 需 文档 的 能 

我 们 通常 将 一 个 系统 与 男 一 个 系统 进行 比较 来 执行 评估 。 

IR 系统 可 以 基于 文档 集 、 查 询 集 以 及 所 使 用 的 技术 等 进行 比较 。 用 于 性 能 评估 的 指标 
有 精确 率 (Precision), HEX (Recall) 和 下 值 (F-Measure)。 让 我 们 来 进一步 了 解 它们 : 

。 精确 率 : 被 定义 为 相关 检索 集 的 比例 。 
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Precision = |relevant N retrieved| + |retrieved| = P( relevant | retrieved ) 
。 HER: 被 定义 为 包括 在 检索 集中 的 所 有 相关 文档 集 的 比例 。 
Recall = |relevant N retrieved| + |relevant| = P( retrieved | relevant ) 

。 Fila: 其 可 以 通过 使 用 精确 率 和 召回 率 来 获取 ， 具 体 如 下 : 


F-Measure = (2*Precision*Recall) / (Precision + Recall) 
















































































10.3 错误 识别 指标 





错误 识别 是 一 个 非常 重要 的 可 影响 NLP 系统 性 能 的 方面 。 搜 索 任务 可 能 涉及 以 下 术语 : 
。 HIE (True Positive, TP): 它 可 以 被 定义 为 被 正确 识别 为 相关 文档 的 相关 文档 集 。 
。 Hf (True Negative, TN): 它 可 以 被 定义 为 被 正确 识别 为 无 关 文 档 的 无 关 文档 集 。 
e {RIE (False Positive, FP): 它 也 被 称 为 错误 类 型 1， 是 被 错误 地 识别 为 相关 文档 的 









































无 关 文档 集 。 
e {hfn (False Negative, FN): 它 也 被 称 为 错误 类 型 JI， 是 被 错误 地 识别 为 无 关 文档 
的 相关 文档 集 。 











基于 前 面 所 提 到 的 术语 ， 我 们 得 到 了 如 下 指标 : 
o 精确 率 (P): TPATP+FP)。 

















。 召回 率 (R) : TPATP+FN)。 





e FH: 2*P*R/(P+R)。 


10.4 基于 词汇 搭配 的 指标 














我 们 还 可 以 基于 单词 或 词汇 层面 来 执行 性 能 分 析 。 
考虑 如 下 NLTK 中 的 代码 ， 其 中 已 经 采用 了 影评 ， 并 将 其 标记 为 积极 的 或 消极 的 。 为 
了 检测 一 个 给 定 的 单词 是 否 存在 于 文档 中 ， 我 们 构建 了 一 个 特征 提取 器 : 


























>>> from nltk.corpus import movie reviews 


>>> docs = [(list(movie reviews.words(fileid)), category) 





for category in movie reviews.categories() 





for fileid in movie reviews.fileids (category) ] 
>>> random.shuffle(docs) 
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all wrds = nltk.FreqDist(w.lower() for w in movie reviews.words()) 


word features = list(all wrds) [:2000] 


def doc_features (doc): 
doc words = set (doc) 
features = {} 


for word in word features: 


features['contains((])'.format(word)] = (word in doc words) 


return features 





>>> print (doc features (movie reviews.words('pos/cv957 8737.txt' 
('contains(waste)': False, 'contains(lot)': False, ...} 
featuresets - [(doc features(d), c) for (d,c) in docs] 

train set, test set - featuresets[100:], featuresets[:100] 
classifier - nltk.NaiveBayesClassifier.train(train set) 





>>> print(nltk.classify.accuracy(classifier, test set)) 
0.81 
>>> classifier.show most informative features (5) 


Most Informative Features 





contains(outstanding) = True pos : neg = 11.1 
.0 
contains(seagal) = True neg : pos = 7.7 
.0 
contains(wonderfully) = True pos : neg = 6.8 
sO 
contains (damon) = True pos : neg = 5.9 
.0 
contains(wasted) = True neg : pos = 5.8 
.0 


























))) 





考虑 如 下 NLTK 中 用 于 描述 nltk.metrics.distance 模块 的 代码 ， 它 提供 了 用 于 
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角 定 给 定 的 输出 与 预期 的 输出 是 否 相同 的 指标 : 


from future import print function 
from X future import division 
def edit dist init(lenl, len2): 

lev = [] 


for i in range(lenl): 

lev.append([0] * len2) # initialization of 2D array to 
for i in range(lenl): 

lev[i] [0] = i # column 0: 0,1,2,3,4,... 


zero 
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for j in range(len2): 
lev[O][j] = j # row 0: 0,1,2,3,4,... 


return lev 


def edit dist step(lev, i, j, sl, s2, transpositions-False): 
cl = sl[i - 1] 
c2 = s2[j - 1] 








skipping a character in sl 

a = lev[i - 1][j] + 1 
Skipping a character in s2 

b = lev[i][j - 1] + 1 
substitution 

c = lev[i - 1][j - 1] + (cl !- c2) 
transposition 











d=c+1 £4 never picked by default 
if transpositions and i> 1 and j > 1: 
if sl[i - 2] == c2 and s2[j - 2] == c1: 
d = lev[i -2][j - 2] +1 


# pick the cheapest 
lev[i][j] = min(a, b, c, d) 


def edit distance(s1, s2, transpositions-False): 


f set up a 2-D array 


lenl = len(s1) 
len2 = len(s2) 
lev = edit dist init(lenl + 1, len2 + 1) 





# iterate over the array 
for i in range(lenl): 
for j in range(len2): 
edit dist step(lev, i * 1, J * 1, sl, s2, 
transpositions-transpositions) 
return lev[lenl] [len2] 





def binary distance(labell, label2): 
"""Simple equality test. 








0.0 if the labels are identical, 1.0 if they are different. 
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>>> from nltk.metrics import binary distance 
>>> binary distance(1,1) 
0.0 


>>> binary distance (1,3) 
1.0 


woe 


return 0.0 if labell == label2 else 1.0 





def jaccard distance(labell, label2): 


"""Distance metric comparing set-similarity. 


"nm 


return (len(labell.union(1abel2)) - len(labell. 
intersection(label2)))/len(labell.union(1abel2)) 


def masi distance(labell, label2) 





len intersection - len(labell.intersection(label2)) 
len union - len(labell.union(label2)) 

len labell = len(labell) 

len label2 - len(label2) 




















if len labell == len label2 and len labell == len intersection: 
m= 1 
lif len intersection == min(len label1, len label2): 
m = 0.67 
lif len intersection » 0: 
m = 0.33 
else: 
m= 0 
return 1 - (len intersection / len union) * m 


def interval distance (labell,label2): 


Erys 
return pow(labell - label2, 2) 
# return pow(list(labell) [0]-list(label2) [0],2) 
except: 


print("non-numeric labels not supported with interval 
distance") 





def presence(label): 
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return lambda x, y: 1.0 * ((label in x) == (label in y)) 


def fractional presence (label): 
return lambda x, y:\ 


abs(((1.0 / len(x)) - (1.0 / len(y)))) * (label in x and label 
in y) \ 

or 0.0 * (label not in x and label not in y) ^ 

or abs((1.0 / len(x))) * (label in x and label not in y) \ 

or ((1.0 / len(y))) * (label not in x and label in y) 


def custom distance(file): 
data = {} 
with open(file, 'r') as infile: 
for l in infile: 
labelA, labelB, dist = l.strip().split("\t") 
labelA = frozenset([labelA]) 
labelB = frozenset([labelB]) 
data[frozenset([labelA,labelB])] = float(dist) 
return lambda x,y:data[frozenset([x,y]) ] 











def demo(): 
edit distance examples - [ 
("rain", "shine"), ("abcdef", "acbdef"), ("language", 
"lnaguaeg"), 
("language", "lnaugage"), ("language", "lngauage")] 
for sl, s2 in edit distance examples: 
print ("Edit distance between '$s' and '$s':" $ (sl, s2), edit - 
distance(sl, s2)) 
for sl, s2 in edit distance examples: 
print("Edit distance with transpositions between 
'S$s':" $ (sl, s2), edit distance(sl1, s2, transpositions-True)) 





$s' and 


sl = set([1, 2, 3, 4]) 

s2 = VR 4, 5]) 

print("s1l: sl) 

print ("s2: s2) 

cine ey distance:", binary distance(sl, s2)) 
( 
( 


print ("Jaccard distance:", jaccard distance(s1, s2)) 
print ("MASI distance:", masi distance(sl, s2)) 
if name == ' main ': 





10. 
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5 基于 句法 匹配 的 指标 


人 句法 匹配 可 以 通过 执行 分 块 任务 来 完成 。NLTK 4 





























的 模块 ， 其 有 助 于 识别 语 块 并 为 给 定 的 语 块 序列 返回 一 个 解析 树 。 


名 为 nltk.chunk.nameqd entity 的 模块 用 于 识别 一 个 命名 实体 列表 并 生成 一 个 解 
析 结 构 。 考 虑 如 下 NLTK 中 基于 句法 匹配 的 代码 : 


10. 

















>>> import nltk 


>>> from nltk.tree import Tree 
>>> print (Tree(1, [2,Tree(3, [4]),5])) 


(1: 2 (3 4) 
>>> ct=Tree 


5) 


提供 了 一 个 叫 作 nltk.chunk.api 





('VP', [Tree('V', ['gave']),Tree('NP', ['her'])]) 
>>> sent-Tree('S',[Tree('NP',['I']),ct]) 


>>> print (sent) 

(S (NP I) (VP (V gave) (NP her) )) 
>>> print (sent[1]) 

(VP (V gave) (NP her)) 

>>> print(sent[1,1]) 


(NP her) 


>>> tl-Tree. 
>>> sent==tl 


True 

>>> tl[1][1 
>>> tl[1][1 
ry! 


>>> print (tL 


.set label('X') 
.label() 


) 


(S (NP I) (VP (V gave) (X her))) 


>>> t1[0], 


>>> print(tl 


(S (X her) 
>>> len(tl) 
2 


t1[1,1]=t1[1,1],t1[0] 





) 
(VP (V gave) (NP I))) 


6 使 用 浅 层 语义 匹配 的 指标 


WordNet 相似 度 用 于 执行 语义 匹配 ， 在 此 过 程 中 ， 可 以 计 























from string("(S(NP I) (VP (V gave) (NP her)))") 


给 定 文本 与 其 相应 假设 





ce 
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的 相似 度 。 可 使 用 自然 语言 工具 包 来 计算 文本 中 的 单词 与 其 相应 假设 的 相似 度 : path 
distance, Leacock-Chodorow Similarity, Wu-Palmer Similarity, Resnik Similarity, Jiang-Conrath 
Similarity 以 及 Lin Similarity。 在 这 些 指标 中 ， 我 们 比较 的 不 是 单词 的 相似 度 ， 而 是 词义 的 
相似 度 。 

在 浅 层 语义 分 析 的 过 程 中 ， 也 同时 执行 了 NER 和 共 指 消解 任务 。 

考虑 如 下 NLTK 中 用 于 计算 wordnet 相似 度 的 代码 : 






































>>> wordnet.N['dog'][0].path similarity (wordnet.N['cat'][0]) 
0.20000000000000001 

>>> wordnet.V['run'][0].path similarity (wordnet.V['walk'][0]) 
0.25 


10.7 小 结 


在 本 章 中 ， 我 们 讨论 了 各 种 NLP 系统 〈 词 性 标注 峰 、 词 干 提取 器 和 形态 分 析 器 ) HUY 
估 。 你 已 经 学 习 了 分 别 基 于 错误 识别 、 词 汇 搭配、 句法 匹配 、 浅 层 语 义 匹 配 的 各 种 指标 ， 
它们 可 用 于 执行 NLP 系统 的 评估 。 我 们 还 讨论 了 使 用 黄金 数据 来 执行 的 解析 器 评估 ， 可 以 
使 用 三 个 指标 来 执行 评估 ， 即 精确 率 、 召 回 率 和 了 值 。 此 外 ， 你 还 学 习 了 IR 系统 的 评估 。 

























































































欢迎 来 到 异步 


异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 
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提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 





社区 里 都 有 什么 ? 


购买 图 书 
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新 年 新 气象 
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方法 : SERS — 机 要 学 习 项 目 开发 实战 MHNA see 
与 贝 叶 斯 推断 的 Pyth 
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Python 学 习 法 
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[$ 移动 开发 e 游戏 开发 


更 多 >> 






免费 电子 书 


Free eBook 











我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 





布 新 书 书 讯 。 











下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 











另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 


与 作 译 者 互动 








很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 账 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 


特别 优惠 
购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 

















纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 

















社区 里 还 可 以 做 什么 ? 




















提交 勘误 
您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 
者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 
写作 
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社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 

















会 议 活动 早 知 道 

















您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 





加 入 异步 











扫描 任意 二 维 码 都 能 找到 我 们 : 











异步 社区 O ERZSI MATHS  ” BABE 。 ”QQ 群 : 436746675 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 








ESDH: e 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 





投稿 & 咨询 : contact@epubit.com.cn 


tia Python 
自然 语言 处 理 


EN 是 有 关 计 算 语言 学 与 人 工 智 能 的 研究 领域 之 一 。NLP 主要 关注 人 机 交互 ， 它 提供 
了 计算 机 和 人 类 之 间 的 无 颖 交互 ， 使 得 计算 机 在 机 器 学 习 的 帮助 下 理解 人 类 语言 。 




















本 书 详细 介绍 如 何 使 用 Python 执行 各 种 自然 语言 处 理 ( NLP ) 任务 ， 并 帮助 读者 掌握 利用 Python ix 
计 和 构建 基于 NLP 的 应 用 的 最 佳 实践 。 本 书 引导 读者 应 用 机 器 学 习 工 具 来 开发 各 种 各 样 的 模型 。 对 于 训练 数 
据 的 创建 和 主要 NLP 应 用 的 实现 , 例如 命名 实体 识别 、 问 答 系统 、 语 篇 分 析 、 词义 消 歧 、 信 息 检索 、 情 感 分 析 、 
文本 摘要 以 及 指 代 消 解 等 ， 本 书 都 进行 了 清晰 的 介绍 。 本 书 有 助 于 读者 使 用 NLTK 创建 NLP 项 目 并 成 为 相 
关 领 域 的 专家 。 










































































过 阅读 本 书 ， 你 将 能 够 

€ 实现 字符 串 匹 配 算法 以 及 标准 化 技术 ; 

@ 实现 统计 语言 建 模 技术 ; 

@ 深刻 理解 词 干 提取 器 、 词 形 还 原 器 、 形 态 分 析 器 以 及 形态 生成 器 的 开发 ; 

€ 开发 搜索 引擎 并 实现 词性 标注 和 统计 建 模 ( 包含 n-gram 方法 ) 等 相关 概念 ; 

@ 熟悉 诸如 树 型 库 建设 、CFG 建设 、CYK 以 及 Earley 线 图 解析 算法 等 相关 概念 ; 
€ AREF NER 的 系统 并 理解 和 应 用 情感 分 析 的 相关 概念 ; 

@ 理解 并 实现 信息 检索 和 文本 摘要 等 相关 概念 ; 

€ 开发 语 篇 分 析 系 统 以 及 基于 指 代 消 解 的 系统 。 
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投稿 /反馈 邮箱 contact@epubit.com.cn 
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